- توضیحات :
DocNLI یک مجموعه داده در مقیاس بزرگ برای استنتاج زبان طبیعی در سطح سند (NLI) است. DocNLI از طیف وسیعی از مشکلات NLP تغییر شکل داده و ژانرهای متعددی از متن را پوشش می دهد. مقدمات همیشه در جزئیات سند باقی میمانند، در حالی که طول فرضیهها از جملههای منفرد تا قسمتهایی با صدها کلمه متفاوت است. برخلاف برخی از مجموعه داده های NLI در سطح جمله موجود، DocNLI مصنوعات بسیار محدودی دارد.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/salesforce/DocNLI/
کد منبع :
tfds.text.docnli.DocNLI
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
حجم دانلود :
313.89 MiB
حجم مجموعه داده :
3.07 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 267,086 |
'train' | 942,314 |
'validation' | 234,258 |
- ساختار ویژگی :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فرضیه | متن | رشته | ||
برچسب | ClassLabel | int64 | ||
فرضیه | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}