doc_nli

  • विवरण :

DocNLI दस्तावेज़-स्तरीय प्राकृतिक भाषा अनुमान (NLI) के लिए एक बड़े पैमाने का डेटासेट है। DocNLI एनएलपी समस्याओं की एक विस्तृत श्रृंखला से रूपांतरित है और पाठ की कई शैलियों को शामिल करता है। परिसर हमेशा दस्तावेज़ के ग्रैन्युलैरिटी में रहता है, जबकि परिकल्पना की लंबाई एक वाक्य से सैकड़ों शब्दों के साथ परिच्छेद तक भिन्न होती है। कुछ मौजूदा वाक्य-स्तरीय NLI डेटासेट के विपरीत, DocNLI में बहुत सीमित कलाकृतियाँ हैं।

विभाजित करना उदाहरण
'test' 267,086
'train' 942,314
'validation' 234,258
  • फ़ीचर संरचना :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
परिकल्पना मूलपाठ डोरी
लेबल क्लासलेबल int64
आधार मूलपाठ डोरी
  • उद्धरण :
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}