- الوصف :
DocNLI عبارة عن مجموعة بيانات واسعة النطاق لاستدلال اللغة الطبيعية على مستوى المستند (NLI). يتم تحويل DocNLI من مجموعة واسعة من مشاكل البرمجة اللغوية العصبية ويغطي أنواعًا متعددة من النص. تظل المباني دائمًا في دقة المستند ، بينما تختلف الفرضيات في الطول من جمل مفردة إلى مقاطع بمئات الكلمات. على عكس بعض مجموعات بيانات NLI الموجودة على مستوى الجملة ، فإن DocNLI لديها عناصر محدودة للغاية.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/salesforce/DocNLI/
كود المصدر :
tfds.text.docnli.DocNLI
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التحميل :
313.89 MiB
حجم مجموعة البيانات :
3.07 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 267.086 |
'train' | 942.314 |
'validation' | 234258 |
- هيكل الميزة :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
فرضية | نص | سلسلة | ||
ضع الكلمة المناسبة | ClassLabel | int64 | ||
فرضية | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}