- 説明:
MLQA (Multilingual Question Answering Dataset) は、多言語の質問応答パフォーマンスを評価するためのベンチマーク データセットです。データセットは、アラビア語、ドイツ語、スペイン語、英語、ヒンディー語、ベトナム語、中国語の 7 つの言語で構成されています。
追加のドキュメント:コード を使用したペーパーの探索
ソース コード:
tfds.datasets.mlqa.Builder
バージョン:
-
1.0.0
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ:
72.21 MiB
自動キャッシュ(ドキュメント): はい
機能構造:
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
答え | 順序 | |||
回答/answer_start | テンソル | int32 | ||
回答/テキスト | 文章 | 弦 | ||
コンテクスト | 文章 | 弦 | ||
ID | テンソル | 弦 | ||
質問 | 文章 | 弦 | ||
タイトル | 文章 | 弦 |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@article{lewis2019mlqa,
title={MLQA: Evaluating Cross-lingual Extractive Question Answering},
author={Lewis, Patrick and Ouguz, Barlas and Rinott, Ruty and Riedel, Sebastian and Schwenk, Holger},
journal={arXiv preprint arXiv:1910.07475},
year={2019}
}
mlqa/ar (デフォルト構成)
構成の説明: MLQA 'ar' dev と test の分割。
データセットのサイズ:
9.28 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 5,335 |
'validation' | 517 |
- 例( tfds.as_dataframe ):
mlqa/de
構成の説明: MLQA 'de' dev と test の分割。
データセットサイズ:
5.06 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 4,517 |
'validation' | 512 |
- 例( tfds.as_dataframe ):
mlqa/en
構成の説明: MLQA 'en' 開発とテストの分割。
データセットサイズ:
15.72 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 11,590 |
'validation' | 1,148人 |
- 例( tfds.as_dataframe ):
mlqa/es
構成の説明: MLQA 'es' 開発とテストの分割。
データセットのサイズ:
5.09 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 5,253 |
'validation' | 500 |
- 例( tfds.as_dataframe ):
mlqa/こんにちは
構成の説明: MLQA 'hi' dev と test の分割。
データセットサイズ:
12.83 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 4,918 |
'validation' | 507 |
- 例( tfds.as_dataframe ):
mlqa/vi
構成の説明: MLQA 'vi' 開発とテストの分割。
データセットのサイズ:
8.77 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 5,495 |
'validation' | 511 |
- 例( tfds.as_dataframe ):
mlqa/zh
構成の説明: MLQA 'zh' dev と test の分割。
データセットサイズ:
5.13 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 5,137 |
'validation' | 504 |
- 例( tfds.as_dataframe ):