- Mô tả :
Kho ngữ liệu suy luận ngôn ngữ tự nhiên đa thể loại (MultiNLI) là một bộ sưu tập gồm 433k cặp câu có nguồn gốc từ cộng đồng được chú thích bằng thông tin liên quan đến văn bản. Kho ngữ liệu được mô hình hóa trên kho ngữ liệu SNLI, nhưng khác ở chỗ nó bao gồm nhiều thể loại văn bản nói và viết, đồng thời hỗ trợ đánh giá tổng quát hóa giữa các thể loại khác nhau. Tập dữ liệu được dùng làm cơ sở cho nhiệm vụ chung của Hội thảo RepEval 2017 tại EMNLP ở Copenhagen.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://www.nyu.edu/projects/bowman/multinli/
Mã nguồn :
tfds.text.MultiNLI
Phiên bản :
-
1.1.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
216.34 MiB
Kích thước tập dữ liệu :
89.50 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 392,702 |
'validation_matched' | 9,815 |
'validation_mismatched' | 9,832 |
- Cấu trúc tính năng :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'premise': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
giả thuyết | Chữ | sợi dây | ||
nhãn mác | LớpNhãn | int64 | ||
tiền đề | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}