- 説明:
SciTail データセットは、多肢選択式の科学試験と Web 文から作成された含意データセットです。各質問と正解の選択は、仮説を形成するための断定的なステートメントに変換されます。 Web 文の大規模なテキスト コーパスから情報検索を使用して関連するテキストを取得し、これらの文を前提 P として使用します。このような前提と仮説のペアの注釈は、サポートする (含意) またはサポートしない (ニュートラル) としてクラウドソーシングされます。 SciTail データセットを作成します。データセットには 27,026 の例が含まれており、そのうち 10,101 の例が含意ラベル付きで、16,925 の例が中立ラベル付きです。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: https://allenai.org/data/scitail
ソース コード:
tfds.datasets.sci_tail.Builder
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
ダウンロードサイズ:
13.52 MiB
データセットサイズ:
6.01 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 2,126 |
'train' | 23,097 |
'validation' | 1,304 |
- 機能構造:
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
仮説 | 文章 | ストリング | ||
ラベル | クラスラベル | int64 | ||
前提 | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@inproceedings{khot2018scitail,
title={Scitail: A textual entailment dataset from science question answering},
author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
year={2018}
}