- বর্ণনা :
মাল্টি-জেনার ন্যাচারাল ল্যাঙ্গুয়েজ ইনফারেন্স (মাল্টিএনএলআই) কর্পাস হল 433k বাক্য জোড়ার একটি ক্রাউড-সোর্স সংগ্রহ যা পাঠ্য এনটেইলমেন্ট তথ্য সহ টীকা করা হয়েছে। কর্পাসটি SNLI কর্পাসের উপর ভিত্তি করে তৈরি করা হয়েছে, তবে কথ্য এবং লিখিত পাঠ্যের বিভিন্ন ধরণের শ্রেণীকে কভার করে এবং একটি স্বতন্ত্র ক্রস-জেনার সাধারণীকরণ মূল্যায়নকে সমর্থন করে। কোপেনহেগেনে EMNLP-এ RepEval 2017 ওয়ার্কশপের ভাগ করা টাস্কের ভিত্তি হিসেবে এই কর্পাস কাজ করেছে।
সোর্স কোড :
tfds.text.MultiNLIMismatch
সংস্করণ :
-
0.1.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড সাইজ :
216.34 MiB
ডেটাসেটের আকার :
90.91 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 392,702 |
'validation' | 10,000 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': Text(shape=(), dtype=string),
'premise': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অনুমান | পাঠ্য | স্ট্রিং | ||
লেবেল | পাঠ্য | স্ট্রিং | ||
ভিত্তি | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}