- Descripción :
Un nuevo conjunto de datos de 7.787 preguntas científicas de opción múltiple genuinas a nivel de escuela primaria, reunidas para fomentar la investigación en la respuesta avanzada a preguntas. El conjunto de datos se divide en un conjunto de desafío y un conjunto fácil, donde el primero contiene solo preguntas respondidas incorrectamente tanto por un algoritmo basado en recuperación como por un algoritmo de co-ocurrencia de palabras. También incluimos un corpus de más de 14 millones de oraciones científicas relevantes para la tarea y una implementación de tres modelos de referencia neuronal para este conjunto de datos. Planteamos a ARC como un desafío para la comunidad.
En comparación con el conjunto de datos original, esto agrega oraciones de contexto obtenidas a través de la recuperación de información de la misma manera que UnifiedQA (consulte: https://arxiv.org/abs/2005.00700 ).
Documentación adicional : Explore en Papers With Code
Página de inicio: https://allenai.org/data/arc
Código fuente :
tfds.datasets.ai2_arc_with_ir.Builder
Versiones :
-
1.0.0
(predeterminado): Sin notas de la versión.
-
Tamaño de descarga :
3.68 MiB
Almacenamiento automático en caché ( documentación ): Sí
Estructura de características :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
clave de respuesta | Etiqueta de clase | int64 | ||
opciones | Secuencia | |||
opciones/etiqueta | Etiqueta de clase | int64 | ||
opciones/texto | Texto | cuerda | ||
identificación | Texto | cuerda | ||
párrafo | Texto | cuerda | ||
pregunta | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
ai2_arc_with_ir/ARC-Challenge-IR (configuración predeterminada)
Descripción de la configuración : conjunto de desafíos de 2590 preguntas "difíciles" (aquellas que tanto el método de recuperación como el de co-ocurrencia no logran responder correctamente)
Tamaño del conjunto de datos :
3.76 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,172 |
'train' | 1,119 |
'validation' | 299 |
- Ejemplos ( tfds.as_dataframe ):
ai2_arc_with_ir/ARC-Easy-IR
Descripción de la configuración : Easy Set de 5197 preguntas para el ARC Challenge.
Tamaño del conjunto de datos :
7.49 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 2,376 |
'train' | 2,251 |
'validation' | 570 |
- Ejemplos ( tfds.as_dataframe ):