tydi_qa

  • Descripción :

TyDi QA es un conjunto de datos de respuesta a preguntas que cubre 11 idiomas tipológicamente diversos con 204 000 pares de preguntas y respuestas. Los lenguajes de TyDi QA son diversos con respecto a su tipología, el conjunto de características lingüísticas que expresa cada idioma, por lo que esperamos que los modelos funcionen bien en este conjunto para generalizar en una gran cantidad de idiomas del mundo. Contiene fenómenos lingüísticos que no se encontrarían en corpus solo en inglés. Para proporcionar una tarea de búsqueda de información realista y evitar los efectos de preparación, las preguntas las escriben personas que quieren saber la respuesta, pero que aún no saben la respuesta (a diferencia de SQuAD y sus descendientes) y los datos se recopilan directamente en cada idioma. sin el uso de traducción (a diferencia de MLQA y XQuAD).

Divisiones de entrenamiento:

'entrenar': esta es la tarea GoldP del artículo original de control de calidad de TyDi [ https://arxiv.org/abs/2003.05002 ] que tiene datos de entrenamiento etiquetados en el idioma original.

'translate-train-*': estas divisiones son las traducciones automáticas del inglés a cada idioma de destino utilizado en las líneas base de traducción-entrenamiento en el documento XTREME [ https://arxiv.org/abs/2003.11080 ]. Esto ignora deliberadamente los datos de capacitación TyDiQA-GoldP que no están en inglés para simular el escenario de transferencia de aprendizaje donde los datos en el idioma original no están disponibles y los desarrolladores de sistemas deben confiar en los datos en inglés etiquetados más los sistemas de traducción automática existentes.

Por lo general, debe usar YA SEA el tren o la división de tren de traducción, pero no ambos.

Separar Ejemplos
'train' 49,881
'translate-train-ar' 3,661
'translate-train-bn' 3,585
'translate-train-fi' 3,670
'translate-train-id' 3,667
'translate-train-ko' 3,607
'translate-train-ru' 3,394
'translate-train-sw' 3,622
'translate-train-te' 3,658
'validation' 5,077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Estructura de características :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
respuestas Secuencia
respuestas/answer_start Tensor int32
respuestas/texto Texto cuerda
contexto Texto cuerda
identificación Tensor cuerda
pregunta Texto cuerda
título Texto cuerda
  • Cita :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (configuración predeterminada)