- 説明:
DocNLI は、ドキュメント レベルの自然言語推論 (NLI) のための大規模なデータセットです。 DocNLI は、幅広い NLP 問題から変換され、複数のジャンルのテキストをカバーします。前提は常にドキュメントの粒度にとどまりますが、仮説の長さは単一の文から数百語のパッセージまでさまざまです。一部の既存の文レベルの NLI データセットとは対照的に、DocNLI のアーティファクトはかなり限られています。
追加のドキュメント:コード を使用したペーパーの探索
ソースコード:
tfds.text.docnli.DocNLI
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
ダウンロードサイズ:
313.89 MiB
データセットサイズ:
3.07 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 267,086 |
'train' | 942,314 |
'validation' | 234,258 |
- 機能構造:
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
仮説 | 文章 | ストリング | ||
ラベル | クラスラベル | int64 | ||
前提 | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}