mlqa

  • 説明:

MLQA (Multilingual Question Answering Dataset) は、多言語の質問応答パフォーマンスを評価するためのベンチマーク データセットです。データセットは、アラビア語、ドイツ語、スペイン語、英語、ヒンディー語、ベトナム語、中国語の 7 つの言語で構成されています。

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
答え順序
回答/answer_startテンソルint32
回答/テキスト文章
コンテクスト文章
IDテンソル
質問文章
タイトル文章
@article{lewis2019mlqa,
  title={MLQA: Evaluating Cross-lingual Extractive Question Answering},
  author={Lewis, Patrick and Ouguz, Barlas and Rinott, Ruty and Riedel,   Sebastian and Schwenk, Holger},
  journal={arXiv preprint arXiv:1910.07475},
  year={2019}
}

mlqa/ar (デフォルト構成)

  • 構成の説明: MLQA 'ar' dev と test の分割。

  • データセットのサイズ: 9.28 MiB

  • スプリット:

スプリット
'test' 5,335
'validation' 517

mlqa/de

  • 構成の説明: MLQA 'de' dev と test の分割。

  • データセットサイズ: 5.06 MiB

  • スプリット:

スプリット
'test' 4,517
'validation' 512

mlqa/en

  • 構成の説明: MLQA 'en' 開発とテストの分割。

  • データセットサイズ: 15.72 MiB

  • スプリット:

スプリット
'test' 11,590
'validation' 1,148人

mlqa/es

  • 構成の説明: MLQA 'es' 開発とテストの分割。

  • データセットのサイズ: 5.09 MiB

  • スプリット:

スプリット
'test' 5,253
'validation' 500

mlqa/こんにちは

  • 構成の説明: MLQA 'hi' dev と test の分割。

  • データセットサイズ: 12.83 MiB

  • スプリット:

スプリット
'test' 4,918
'validation' 507

mlqa/vi

  • 構成の説明: MLQA 'vi' 開発とテストの分割。

  • データセットのサイズ: 8.77 MiB

  • スプリット:

スプリット
'test' 5,495
'validation' 511

mlqa/zh

  • 構成の説明: MLQA 'zh' dev と test の分割。

  • データセットサイズ: 5.13 MiB

  • スプリット:

スプリット
'test' 5,137
'validation' 504