tydi_qa

説明:

TyDi QA は、類型的に多様な 11 の言語と 204,000 の質問と回答のペアをカバーする質問応答データセットです。 TyDi QA の言語は、その類型 (各言語が表現する言語的特徴のセット) に関して多様であるため、このセットでうまく機能するモデルは、世界中の多数の言語にわたって一般化されることが期待されます。英語のみのコーパスには見られない言語現象が含まれています。現実的な情報探索タスクを提供し、プライミング効果を回避するために、質問は答えを知りたいが、まだ答えを知らない人々によって書かれ (SQuAD とその子孫とは異なり)、データは各言語で直接収集されます。翻訳を使用しない (MLQA や XQuAD とは異なります)。

トレーニング分割:

'train': これは元の TyDi QA 論文 [ https://arxiv.org/abs/2003.05002 ] の GoldP タスクで、元の言語でラベル付けされたトレーニングデータがあります。

「translate-train-*」: これらの分割は、XTREME 論文 [ https://arxiv.org/abs/2003.11080 ] の translate-train ベースラインで使用される英語から各ターゲット言語への自動翻訳です。これは、英語以外の TyDiQA-GoldP トレーニングデータを意図的に無視して、元の言語データが利用できず、システムビルダーがラベル付きの英語データと既存の機械翻訳システムに依存しなければならない転移学習シナリオをシミュレートします。

通常、train または translate-train 分割のいずれかを使用する必要がありますが、両方を使用することはできません。

追加のドキュメント:コードを使用したペーパーの探索
構成の説明: ゴールド通路 (GoldP) タスク ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline )。
ホームページ: https://github.com/google-research-datasets/tydiqa
ソースコード: tfds.question_answering.TydiQA
バージョン:
- 3.0.0 (デフォルト): コンテキストの空白の削除が原因で回答範囲がずれている多くの例の問題を修正します。この変更は、トレーニングと開発の例の約 25% に影響します。
ダウンロードサイズ: 121.30 MiB
データセットのサイズ: 98.35 MiB
自動キャッシュ(ドキュメント): はい
スプリット:

スプリット	例
`'train'`	49,881
`'translate-train-ar'`	3,661
`'translate-train-bn'`	3,585
`'translate-train-fi'`	3,670
`'translate-train-id'`	3,667
`'translate-train-ko'`	3,607
`'translate-train-ru'`	3,394
`'translate-train-sw'`	3,622
`'translate-train-te'`	3,658
`'validation'`	5,077
`'validation-ar'`	921
`'validation-bn'`	113
`'validation-en'`	440
`'validation-fi'`	782
`'validation-id'`	565
`'validation-ko'`	276
`'validation-ru'`	812
`'validation-sw'`	499
`'validation-te'`	669

機能構造:

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
答え	順序
回答/answer_start	テンソル	int32
回答/テキスト	文章	ストリング
環境	文章	ストリング
ID	テンソル	ストリング
質問	文章	ストリング
題名	文章	ストリング

監視されたキー( as_supervised docを参照): None
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):

引用：

@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa

tydi_qa/goldp (デフォルト設定)