tydi_qa

  • 説明:

TyDi QA は、類型的に多様な 11 の言語と 204,000 の質問と回答のペアをカバーする質問応答データセットです。 TyDi QA の言語は、その類型 (各言語が表現する言語的特徴のセット) に関して多様であるため、このセットでうまく機能するモデルは、世界中の多数の言語にわたって一般化されることが期待されます。英語のみのコーパスには見られない言語現象が含まれています。現実的な情報探索タスクを提供し、プライミング効果を回避するために、質問は答えを知りたいが、まだ答えを知らない人々によって書かれ (SQuAD とその子孫とは異なり)、データは各言語で直接収集されます。翻訳を使用しない (MLQA や XQuAD とは異なります)。

トレーニング分割:

'train': これは元の TyDi QA 論文 [ https://arxiv.org/abs/2003.05002 ] の GoldP タスクで、元の言語でラベル付けされたトレーニング データがあります。

「translate-train-*」: これらの分割は、XTREME 論文 [ https://arxiv.org/abs/2003.11080 ] の translate-train ベースラインで使用される英語から各ターゲット言語への自動翻訳です。これは、英語以外の TyDiQA-GoldP トレーニング データを意図的に無視して、元の言語データが利用できず、システム ビルダーがラベル付きの英語データと既存の機械翻訳システムに依存しなければならない転移学習シナリオをシミュレートします。

通常、train または translate-train 分割のいずれかを使用する必要がありますが、両方を使用することはできません。

スプリット
'train' 49,881
'translate-train-ar' 3,661
'translate-train-bn' 3,585
'translate-train-fi' 3,670
'translate-train-id' 3,667
'translate-train-ko' 3,607
'translate-train-ru' 3,394
'translate-train-sw' 3,622
'translate-train-te' 3,658
'validation' 5,077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • 機能構造:
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
答え順序
回答/answer_startテンソルint32
回答/テキスト文章ストリング
環境文章ストリング
IDテンソルストリング
質問文章ストリング
題名文章ストリング
  • 引用
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (デフォルト設定)