- Descripción :
El corpus de NQ contiene preguntas de usuarios reales y requiere que los sistemas de control de calidad lean y comprendan un artículo completo de Wikipedia que puede o no contener la respuesta a la pregunta. La inclusión de preguntas de usuarios reales y el requisito de que las soluciones deban leer una página completa para encontrar la respuesta hacen que NQ sea una tarea más realista y desafiante que los conjuntos de datos de control de calidad anteriores.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://ai.google.com/research/NaturalQuestions/dataset
Código fuente :
tfds.datasets.natural_questions.Builder
Versiones :
-
0.0.2
: Sin notas de la versión. -
0.1.0
(predeterminado): Sin notas de la versión.
-
Tamaño de descarga :
41.97 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 307,373 |
'validation' | 7,830 |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
preguntas_naturales/predeterminado (configuración predeterminada)
Descripción de la configuración : configuración predeterminada de preguntas naturales
Tamaño del conjunto de datos :
90.26 GiB
Estructura de características :
FeaturesDict({
'annotations': Sequence({
'id': string,
'long_answer': FeaturesDict({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
}),
'short_answers': Sequence({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
'text': Text(shape=(), dtype=string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'tokens': Sequence({
'is_html': bool,
'token': Text(shape=(), dtype=string),
}),
'url': Text(shape=(), dtype=string),
}),
'id': string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=string),
'tokens': Sequence(string),
}),
})
- Documentación de características :
Característica | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
anotaciones | Secuencia | |||
anotaciones/identificación | Tensor | cadena | ||
anotaciones/respuesta_larga | CaracterísticasDict | |||
anotaciones/respuesta_larga/byte_final | Tensor | int64 | ||
anotaciones/respuesta_larga/token_final | Tensor | int64 | ||
anotaciones/respuesta_larga/byte_de_inicio | Tensor | int64 | ||
anotaciones/respuesta_larga/token_de_inicio | Tensor | int64 | ||
anotaciones/respuestas_cortas | Secuencia | |||
anotaciones/breve_respuestas/final_byte | Tensor | int64 | ||
anotaciones/breve_respuestas/end_token | Tensor | int64 | ||
anotaciones/breve_respuestas/start_byte | Tensor | int64 | ||
anotaciones/breve_respuestas/start_token | Tensor | int64 | ||
anotaciones/respuestas_cortas/texto | Texto | cadena | ||
anotaciones/sí_no_respuesta | Etiqueta de clase | int64 | ||
documento | CaracterísticasDict | |||
documento/html | Texto | cadena | ||
titulo del documento | Texto | cadena | ||
documento/fichas | Secuencia | |||
documento/fichas/es_html | Tensor | bool | ||
documento/fichas/fichas | Texto | cadena | ||
documento/url | Texto | cadena | ||
identificación | Tensor | cadena | ||
pregunta | CaracterísticasDict | |||
pregunta/texto | Texto | cadena | ||
pregunta/fichas | Secuencia (tensor) | (Ninguno,) | cadena |
- Ejemplos ( tfds.as_dataframe ):
preguntas_naturales/longt5
Descripción de la configuración : preguntas naturales preprocesadas como en el benchmark longT5
Tamaño del conjunto de datos :
8.91 GiB
Estructura de características :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=string)),
'answer': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentación de características :
Característica | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
todas_respuestas | Secuencia (Texto) | (Ninguno,) | cadena | |
respuesta | Texto | cadena | ||
contexto | Texto | cadena | ||
identificación | Texto | cadena | ||
pregunta | Texto | cadena | ||
título | Texto | cadena |
- Ejemplos ( tfds.as_dataframe ):