preguntas_naturales

  • Descripción :

El corpus de NQ contiene preguntas de usuarios reales y requiere que los sistemas de control de calidad lean y comprendan un artículo completo de Wikipedia que puede o no contener la respuesta a la pregunta. La inclusión de preguntas de usuarios reales y el requisito de que las soluciones deban leer una página completa para encontrar la respuesta hacen que NQ sea una tarea más realista y desafiante que los conjuntos de datos de control de calidad anteriores.

Dividir Ejemplos
'train' 307,373
'validation' 7,830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

preguntas_naturales/predeterminado (configuración predeterminada)

  • Descripción de la configuración : configuración predeterminada de preguntas naturales

  • Tamaño del conjunto de datos : 90.26 GiB

  • Estructura de características :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
anotaciones Secuencia
anotaciones/identificación Tensor cadena
anotaciones/respuesta_larga CaracterísticasDict
anotaciones/respuesta_larga/byte_final Tensor int64
anotaciones/respuesta_larga/token_final Tensor int64
anotaciones/respuesta_larga/byte_de_inicio Tensor int64
anotaciones/respuesta_larga/token_de_inicio Tensor int64
anotaciones/respuestas_cortas Secuencia
anotaciones/breve_respuestas/final_byte Tensor int64
anotaciones/breve_respuestas/end_token Tensor int64
anotaciones/breve_respuestas/start_byte Tensor int64
anotaciones/breve_respuestas/start_token Tensor int64
anotaciones/respuestas_cortas/texto Texto cadena
anotaciones/sí_no_respuesta Etiqueta de clase int64
documento CaracterísticasDict
documento/html Texto cadena
titulo del documento Texto cadena
documento/fichas Secuencia
documento/fichas/es_html Tensor bool
documento/fichas/fichas Texto cadena
documento/url Texto cadena
identificación Tensor cadena
pregunta CaracterísticasDict
pregunta/texto Texto cadena
pregunta/fichas Secuencia (tensor) (Ninguno,) cadena

preguntas_naturales/longt5

  • Descripción de la configuración : preguntas naturales preprocesadas como en el benchmark longT5

  • Tamaño del conjunto de datos : 8.91 GiB

  • Estructura de características :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
todas_respuestas Secuencia (Texto) (Ninguno,) cadena
respuesta Texto cadena
contexto Texto cadena
identificación Texto cadena
pregunta Texto cadena
título Texto cadena