doc_nli

  • توضیحات :

DocNLI یک مجموعه داده در مقیاس بزرگ برای استنتاج زبان طبیعی در سطح سند (NLI) است. DocNLI از طیف وسیعی از مشکلات NLP تغییر شکل داده و ژانرهای متعددی از متن را پوشش می دهد. مقدمات همیشه در جزئیات سند باقی می‌مانند، در حالی که طول فرضیه‌ها از جمله‌های منفرد تا قسمت‌هایی با صدها کلمه متفاوت است. برخلاف برخی از مجموعه داده های NLI در سطح جمله موجود، DocNLI مصنوعات بسیار محدودی دارد.

شکاف مثال ها
'test' 267,086
'train' 942,314
'validation' 234,258
  • ساختار ویژگی :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فرضیه متن رشته
برچسب ClassLabel int64
فرضیه متن رشته
  • نقل قول :
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}