tydi_qa

  • Descriptif :

TyDi QA est un ensemble de données de questions-réponses couvrant 11 langues typologiquement diverses avec 204 000 paires de questions-réponses. Les langues de TyDi QA sont diverses en ce qui concerne leur typologie - l'ensemble de caractéristiques linguistiques que chaque langue exprime - de sorte que nous nous attendons à ce que les modèles performants sur cet ensemble se généralisent à un grand nombre de langues dans le monde. Il contient des phénomènes linguistiques qui ne se trouveraient pas dans des corpus uniquement en anglais. Pour fournir une tâche réaliste de recherche d'informations et éviter les effets d'amorçage, les questions sont écrites par des personnes qui veulent connaître la réponse, mais ne connaissent pas encore la réponse (contrairement à SQuAD et ses descendants) et les données sont collectées directement dans chaque langue. sans l'utilisation de la traduction (contrairement à MLQA et XQuAD).

Divisions de la formation :

'train' : il s'agit de la tâche GoldP de l'article TyDi QA original [ https://arxiv.org/abs/2003.05002 ] qui contient des données d'entraînement étiquetées dans la langue d'origine.

'translate-train-*' : ces divisions sont les traductions automatiques de l'anglais vers chaque langue cible utilisées dans les lignes de base de translate-train dans l'article XTREME [ https://arxiv.org/abs/2003.11080 ]. Cela ignore délibérément les données de formation TyDiQA-GoldP non anglaises pour simuler le scénario d'apprentissage par transfert où les données de la langue d'origine ne sont pas disponibles et les constructeurs de systèmes doivent s'appuyer sur des données anglaises étiquetées ainsi que sur les systèmes de traduction automatique existants.

En règle générale, vous devez utiliser SOIT la séparation train ou translation-train, mais pas les deux.

Diviser Exemples
'train' 49 881
'translate-train-ar' 3 661
'translate-train-bn' 3 585
'translate-train-fi' 3 670
'translate-train-id' 3 667
'translate-train-ko' 3 607
'translate-train-ru' 3 394
'translate-train-sw' 3 622
'translate-train-te' 3 658
'validation' 5 077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Structure des fonctionnalités :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
réponses Séquence
réponses/answer_start Tenseur int32
réponses/texte Texte chaîne de caractères
le contexte Texte chaîne de caractères
identifiant Tenseur chaîne de caractères
question Texte chaîne de caractères
Titre Texte chaîne de caractères
  • Citation :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (configuration par défaut)