doc_nli

توضیحات :

DocNLI یک مجموعه داده در مقیاس بزرگ برای استنتاج زبان طبیعی در سطح سند (NLI) است. DocNLI از طیف وسیعی از مشکلات NLP تغییر شکل داده و ژانرهای متعددی از متن را پوشش می دهد. مقدمات همیشه در جزئیات سند باقی می‌مانند، در حالی که طول فرضیه‌ها از جمله‌های منفرد تا قسمت‌هایی با صدها کلمه متفاوت است. برخلاف برخی از مجموعه داده های NLI در سطح جمله موجود، DocNLI مصنوعات بسیار محدودی دارد.

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/salesforce/DocNLI/
کد منبع : tfds.text.docnli.DocNLI
نسخه ها :
- 1.0.0 (پیش فرض): انتشار اولیه.
حجم دانلود : 313.89 MiB
حجم مجموعه داده : 3.07 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'test'`	267,086
`'train'`	942,314
`'validation'`	234,258

ساختار ویژگی :

FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
فرضیه	متن	رشته
برچسب	ClassLabel	int64
فرضیه	متن	رشته

کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}

doc_nli با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

doc_nli