- 説明:
高度な質問応答の研究を促進するために集められた、7,787 の本物の小学校レベルの多肢選択式科学問題の新しいデータセット。データセットは、チャレンジ セットとイージー セットに分割されます。前者には、検索ベースのアルゴリズムと単語共起アルゴリズムの両方によって間違って回答された質問のみが含まれます。また、タスクに関連する 1,400 万を超える科学文のコーパスと、このデータセットの 3 つのニューラル ベースライン モデルの実装も含まれています。私たちは ARC をコミュニティへの挑戦として提起します。
元のデータセットと比較して、これは UnifiedQA と同じ方法で情報検索によって得られたコンテキスト センテンスを追加します (参照: https://arxiv.org/abs/2005.00700 )。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: https://allenai.org/data/arc
バージョン:
-
1.0.0
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ:
3.68 MiB
自動キャッシュ(ドキュメント): はい
機能構造:
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
解答 | クラスラベル | int64 | ||
選択肢 | 順序 | |||
選択肢/ラベル | クラスラベル | int64 | ||
選択肢/テキスト | 文章 | ストリング | ||
ID | 文章 | ストリング | ||
段落 | 文章 | ストリング | ||
質問 | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
ai2_arc_with_ir/ARC-Challenge-IR (デフォルト構成)
構成説明: 2590 の「難しい」問題のチャレンジ セット (検索と共起の両方の方法で正しく答えられない問題)
データセットのサイズ:
3.76 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 1,172 |
'train' | 1,119 |
'validation' | 299 |
- 例( tfds.as_dataframe ):
ai2_arc_with_ir/ARC-Easy-IR
構成の説明: ARC チャレンジの 5197 問の簡単なセット。
データセットのサイズ:
7.49 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,376 |
'train' | 2,251 |
'validation' | 570 |
- 例( tfds.as_dataframe ):