- Descripción :
XQuAD (Conjunto de datos de respuesta a preguntas en varios idiomas) es un conjunto de datos de referencia para evaluar el rendimiento de respuesta a preguntas en varios idiomas. El conjunto de datos consta de un subconjunto de 240 párrafos y 1190 pares de preguntas y respuestas del conjunto de desarrollo de SQuAD v1.1 (Rajpurkar et al., 2016) junto con sus traducciones profesionales a diez idiomas: español, alemán, griego, ruso, turco. , árabe, vietnamita, tailandés, chino e hindi. En consecuencia, el conjunto de datos es completamente paralelo en 11 idiomas. Para ejecutar XQuAD en la configuración predeterminada de disparo cero, use los datos de capacitación y validación de SQuAD v1.1 aquí: https://www.tensorflow.org/datasets/catalog/squad
También incluimos divisiones "translate-train", "translate-dev" y "translate-test" para cada idioma que no sea inglés de XTREME (Hu et al., 2020). Estos se pueden usar para ejecutar XQuAD en la configuración "traducir-entrenar" o "traducir-prueba".
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/deepmind/xquad
Código fuente :
tfds.question_answering.Xquad
Versiones :
-
3.0.0
(predeterminado): soluciona el problema con una serie de ejemplos en los que los intervalos de respuesta están desalineados debido a la eliminación de espacios en blanco del contexto. Este cambio afecta aproximadamente al 14 % de los ejemplos de prueba.
-
Estructura de características :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
respuestas | Secuencia | |||
respuestas/answer_start | Tensor | int32 | ||
respuestas/texto | Texto | cuerda | ||
contexto | Texto | cuerda | ||
identificación | Tensor | cuerda | ||
pregunta | Texto | cuerda | ||
título | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
xquad/ar (configuración predeterminada)
Descripción de la configuración : división de prueba XQuAD 'ar', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).
Tamaño de la descarga :
420.97 MiB
Tamaño del conjunto de datos :
134.83 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,190 |
'translate-dev' | 10,541 |
'translate-test' | 1,151 |
'translate-train' | 86,787 |
- Ejemplos ( tfds.as_dataframe ):
xquad/de
Descripción de la configuración : división de prueba 'de' de XQuAD, con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).
Tamaño de la descarga :
127.04 MiB
Tamaño del conjunto de datos :
98.80 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,190 |
'translate-dev' | 10,371 |
'translate-test' | 1,168 |
'translate-train' | 82,603 |
- Ejemplos ( tfds.as_dataframe ):
xcuadrado/el
Descripción de la configuración : división de prueba XQuAD 'el', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).
Tamaño de la descarga :
499.40 MiB
Tamaño del conjunto de datos :
157.90 MiB
Auto-caché ( documentación ): Sí (prueba, traducir-dev, traducir-prueba), Solo cuando
shuffle_files=False
(traducir-entrenar)Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,190 |
'translate-dev' | 10,100 |
'translate-test' | 1,182 |
'translate-train' | 79,946 |
- Ejemplos ( tfds.as_dataframe ):
xquad/es
Descripción de la configuración : división de prueba XQuAD 'es', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).
Tamaño de la descarga :
138.41 MiB
Tamaño del conjunto de datos :
104.96 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,190 |
'translate-dev' | 10,566 |
'translate-test' | 1,188 |
'translate-train' | 87,488 |
- Ejemplos ( tfds.as_dataframe ):
xquad/hola
Descripción de la configuración : división de prueba 'hi' de XQuAD, con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).
Tamaño de la descarga :
472.23 MiB
Tamaño del conjunto de datos :
207.85 MiB
Auto-caché ( documentación ): Sí (prueba, traducir-dev, traducir-prueba), Solo cuando
shuffle_files=False
(traducir-entrenar)Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,190 |
'translate-dev' | 10,536 |
'translate-test' | 1,184 |
'translate-train' | 85,804 |
- Ejemplos ( tfds.as_dataframe ):
xquad/ru
Descripción de la configuración : división de prueba XQuAD 'ru', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).
Tamaño de la descarga :
513.80 MiB
Tamaño del conjunto de datos :
159.38 MiB
Auto-caché ( documentación ): Sí (prueba, traducir-dev, traducir-prueba), Solo cuando
shuffle_files=False
(traducir-entrenar)Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,190 |
'translate-dev' | 10,469 |
'translate-test' | 1,190 |
'translate-train' | 84,869 |
- Ejemplos ( tfds.as_dataframe ):
xcuadrado/th
Descripción de la configuración : división de prueba 'th' de XQuAD, con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).
Tamaño de la descarga :
461.54 MiB
Tamaño del conjunto de datos :
199.57 MiB
Auto-caché ( documentación ): Sí (prueba, traducir-dev, traducir-prueba), Solo cuando
shuffle_files=False
(traducir-entrenar)Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,190 |
'translate-dev' | 10,516 |
'translate-test' | 1,157 |
'translate-train' | 85,846 |
- Ejemplos ( tfds.as_dataframe ):
xcuadrado/tr
Descripción de la configuración : división de prueba XQuAD 'tr', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).
Tamaño de descarga :
151.08 MiB
Tamaño del conjunto de datos :
97.56 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,190 |
'translate-dev' | 10,535 |
'translate-test' | 1,112 |
'translate-train' | 86,511 |
- Ejemplos ( tfds.as_dataframe ):
xquad/vi
Descripción de la configuración : división de prueba XQuAD 'vi', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).
Tamaño de la descarga :
218.09 MiB
Tamaño del conjunto de datos :
120.03 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,190 |
'translate-dev' | 10,555 |
'translate-test' | 1,178 |
'translate-train' | 87,187 |
- Ejemplos ( tfds.as_dataframe ):
xquad/zh
Descripción de la configuración : división de prueba XQuAD 'zh', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).
Tamaño de la descarga :
174.57 MiB
Tamaño del conjunto de datos :
80.79 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,190 |
'translate-dev' | 10,475 |
'translate-test' | 1,186 |
'translate-train' | 85,700 |
- Ejemplos ( tfds.as_dataframe ):
xquad/es
Descripción de la configuración : división de prueba XQuAD 'en'.
Tamaño de la descarga :
595.10 KiB
Tamaño del conjunto de datos :
1.19 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,190 |
- Ejemplos ( tfds.as_dataframe ):