- Descriptif :
TyDi QA est un ensemble de données de questions-réponses couvrant 11 langues typologiquement diverses avec 204 000 paires de questions-réponses. Les langues de TyDi QA sont diverses en ce qui concerne leur typologie - l'ensemble de caractéristiques linguistiques que chaque langue exprime - de sorte que nous nous attendons à ce que les modèles performants sur cet ensemble se généralisent à un grand nombre de langues dans le monde. Il contient des phénomènes linguistiques qui ne se trouveraient pas dans des corpus uniquement en anglais. Pour fournir une tâche réaliste de recherche d'informations et éviter les effets d'amorçage, les questions sont écrites par des personnes qui veulent connaître la réponse, mais ne connaissent pas encore la réponse (contrairement à SQuAD et ses descendants) et les données sont collectées directement dans chaque langue. sans l'utilisation de la traduction (contrairement à MLQA et XQuAD).
Divisions de la formation :
'train' : il s'agit de la tâche GoldP de l'article TyDi QA original [ https://arxiv.org/abs/2003.05002 ] qui contient des données d'entraînement étiquetées dans la langue d'origine.
'translate-train-*' : ces divisions sont les traductions automatiques de l'anglais vers chaque langue cible utilisées dans les lignes de base de translate-train dans l'article XTREME [ https://arxiv.org/abs/2003.11080 ]. Cela ignore délibérément les données de formation TyDiQA-GoldP non anglaises pour simuler le scénario d'apprentissage par transfert où les données de la langue d'origine ne sont pas disponibles et les constructeurs de systèmes doivent s'appuyer sur des données anglaises étiquetées ainsi que sur les systèmes de traduction automatique existants.
En règle générale, vous devez utiliser SOIT la séparation train ou translation-train, mais pas les deux.
Documentation complémentaire : Explorer sur Papers With Code
Description de la configuration : tâche Gold passage (GoldP) ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
Page d' accueil : https://github.com/google-research-datasets/tydiqa
Code source :
tfds.question_answering.TydiQA
Versions :
-
3.0.0
(par défaut) : résout le problème avec un certain nombre d'exemples où les étendues de réponse sont mal alignées en raison de la suppression des espaces blancs de contexte. Ce changement affecte environ 25 % des exemples d'entraînement et de développement.
-
Taille du téléchargement :
121.30 MiB
Taille du jeu de données :
98.35 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 49 881 |
'translate-train-ar' | 3 661 |
'translate-train-bn' | 3 585 |
'translate-train-fi' | 3 670 |
'translate-train-id' | 3 667 |
'translate-train-ko' | 3 607 |
'translate-train-ru' | 3 394 |
'translate-train-sw' | 3 622 |
'translate-train-te' | 3 658 |
'validation' | 5 077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- Structure des fonctionnalités :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
réponses | Séquence | |||
réponses/answer_start | Tenseur | int32 | ||
réponses/texte | Texte | chaîne de caractères | ||
le contexte | Texte | chaîne de caractères | ||
identifiant | Tenseur | chaîne de caractères | ||
question | Texte | chaîne de caractères | ||
Titre | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}