- Descripción :
TyDi QA es un conjunto de datos de respuesta a preguntas que cubre 11 idiomas tipológicamente diversos con 204 000 pares de preguntas y respuestas. Los lenguajes de TyDi QA son diversos con respecto a su tipología, el conjunto de características lingüísticas que expresa cada idioma, por lo que esperamos que los modelos funcionen bien en este conjunto para generalizar en una gran cantidad de idiomas del mundo. Contiene fenómenos lingüísticos que no se encontrarían en corpus solo en inglés. Para proporcionar una tarea de búsqueda de información realista y evitar los efectos de preparación, las preguntas las escriben personas que quieren saber la respuesta, pero que aún no saben la respuesta (a diferencia de SQuAD y sus descendientes) y los datos se recopilan directamente en cada idioma. sin el uso de traducción (a diferencia de MLQA y XQuAD).
Divisiones de entrenamiento:
'entrenar': esta es la tarea GoldP del artículo original de control de calidad de TyDi [ https://arxiv.org/abs/2003.05002 ] que tiene datos de entrenamiento etiquetados en el idioma original.
'translate-train-*': estas divisiones son las traducciones automáticas del inglés a cada idioma de destino utilizado en las líneas base de traducción-entrenamiento en el documento XTREME [ https://arxiv.org/abs/2003.11080 ]. Esto ignora deliberadamente los datos de capacitación TyDiQA-GoldP que no están en inglés para simular el escenario de transferencia de aprendizaje donde los datos en el idioma original no están disponibles y los desarrolladores de sistemas deben confiar en los datos en inglés etiquetados más los sistemas de traducción automática existentes.
Por lo general, debe usar YA SEA el tren o la división de tren de traducción, pero no ambos.
Documentación adicional : Explore en Papers With Code
Descripción de la configuración : tarea Gold Passage (GoldP) ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
Página de inicio: https://github.com/google-research-datasets/tydiqa
Código fuente :
tfds.question_answering.TydiQA
Versiones :
-
3.0.0
(predeterminado): soluciona el problema con una serie de ejemplos en los que los intervalos de respuesta están desalineados debido a la eliminación de espacios en blanco del contexto. Este cambio afecta aproximadamente al 25 % de los ejemplos de capacitación y desarrollo.
-
Tamaño de descarga :
121.30 MiB
Tamaño del conjunto de datos :
98.35 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 49,881 |
'translate-train-ar' | 3,661 |
'translate-train-bn' | 3,585 |
'translate-train-fi' | 3,670 |
'translate-train-id' | 3,667 |
'translate-train-ko' | 3,607 |
'translate-train-ru' | 3,394 |
'translate-train-sw' | 3,622 |
'translate-train-te' | 3,658 |
'validation' | 5,077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- Estructura de características :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
respuestas | Secuencia | |||
respuestas/answer_start | Tensor | int32 | ||
respuestas/texto | Texto | cuerda | ||
contexto | Texto | cuerda | ||
identificación | Tensor | cuerda | ||
pregunta | Texto | cuerda | ||
título | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}