- 説明:
Answer Equivalence Dataset には、SQuAD データセットの複数のモデルからのモデル予測に対する人間の評価が含まれています。評価は、予測された回答が金の回答と「同等」であるかどうかを確立します (質問とコンテキストの両方を考慮して)。
より具体的には、「同等」とは、予測された回答に少なくとも最高の回答と同じ情報が含まれており、余分な情報が追加されていないことを意味します。データセットには次の注釈が含まれています。 * SQuAD dev での BiDAF からの予測 * SQuAD dev での XLNet からの予測 * SQuAD dev での Luke からの予測 * SQuAD トレーニング、開発、およびテストの例での Albert からの予測
ホームページ: https://github.com/google-research-datasets/answer-equivalence-dataset
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
ダウンロードサイズ:
45.86 MiB
データセットサイズ:
47.24 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'ae_dev' | 4,446 |
'ae_test' | 9,724 |
'dev_bidaf' | 7,522 |
'dev_luke' | 4,590 |
'dev_xlnet' | 7,932 |
'train' | 9,090 |
- 機能構造:
FeaturesDict({
'candidate': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'gold_index': int32,
'qid': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'question_1': ClassLabel(shape=(), dtype=int64, num_classes=3),
'question_2': ClassLabel(shape=(), dtype=int64, num_classes=3),
'question_3': ClassLabel(shape=(), dtype=int64, num_classes=3),
'question_4': ClassLabel(shape=(), dtype=int64, num_classes=3),
'reference': Text(shape=(), dtype=string),
'score': float32,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
候補者 | 文章 | ストリング | ||
環境 | 文章 | ストリング | ||
ゴールドインデックス | テンソル | int32 | ||
キッド | 文章 | ストリング | ||
質問 | 文章 | ストリング | ||
質問1 | クラスラベル | int64 | ||
質問2 | クラスラベル | int64 | ||
質問_3 | クラスラベル | int64 | ||
質問_4 | クラスラベル | int64 | ||
参照 | 文章 | ストリング | ||
スコア | テンソル | float32 |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@article{bulian-etal-2022-tomayto,
title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},
author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},
year={2022},
eprint={2202.07654},
archivePrefix={arXiv},
primaryClass={cs.CL}
}