- বর্ণনা :
DocNLI হল ডকুমেন্ট-লেভেল ন্যাচারাল ল্যাঙ্গুয়েজ ইনফারেন্স (NLI) এর জন্য একটি বৃহৎ মাপের ডেটাসেট। DocNLI NLP সমস্যার বিস্তৃত পরিসর থেকে রূপান্তরিত হয়েছে এবং পাঠ্যের একাধিক জেনার কভার করে। প্রাঙ্গন সর্বদা নথির গ্র্যানুলারিটিতে থাকে, যেখানে অনুমানগুলি একক বাক্য থেকে শত শত শব্দের প্যাসেজে দৈর্ঘ্যে পরিবর্তিত হয়। কিছু বিদ্যমান বাক্য-স্তরের NLI ডেটাসেটের বিপরীতে, DocNLI-এর বেশ সীমিত শিল্পকর্ম রয়েছে।
সোর্স কোড :
tfds.text.docnli.DocNLI
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোডের আকার :
313.89 MiB
ডেটাসেটের আকার :
3.07 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 267,086 |
'train' | ৯৪২,৩১৪ |
'validation' | 234,258 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অনুমান | পাঠ্য | স্ট্রিং | ||
লেবেল | ক্লাসলেবেল | int64 | ||
ভিত্তি | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}