- विवरण :
DocNLI दस्तावेज़-स्तरीय प्राकृतिक भाषा अनुमान (NLI) के लिए एक बड़े पैमाने का डेटासेट है। DocNLI एनएलपी समस्याओं की एक विस्तृत श्रृंखला से रूपांतरित है और पाठ की कई शैलियों को शामिल करता है। परिसर हमेशा दस्तावेज़ के ग्रैन्युलैरिटी में रहता है, जबकि परिकल्पना की लंबाई एक वाक्य से सैकड़ों शब्दों के साथ परिच्छेद तक भिन्न होती है। कुछ मौजूदा वाक्य-स्तरीय NLI डेटासेट के विपरीत, DocNLI में बहुत सीमित कलाकृतियाँ हैं।
स्रोत कोड :
tfds.text.docnli.DocNLI
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
313.89 MiB
डेटासेट का आकार :
3.07 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 267,086 |
'train' | 942,314 |
'validation' | 234,258 |
- फ़ीचर संरचना :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
परिकल्पना | मूलपाठ | डोरी | ||
लेबल | क्लासलेबल | int64 | ||
आधार | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}