trivia_qa

  • Descripción :

TriviaqQA es un conjunto de datos de comprensión de lectura que contiene más de 650 000 triples de preguntas, respuestas y pruebas. TriviaqQA incluye 95 000 pares de preguntas y respuestas creados por entusiastas de las trivias y documentos de evidencia recopilados de forma independiente, seis por pregunta en promedio, que brindan supervisión a distancia de alta calidad para responder las preguntas.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
respuesta CaracterísticasDict
respuesta/alias Secuencia (Texto) (Ninguno,) cadena
respuesta/matched_wiki_entity_name Texto cadena
respuesta/normalized_aliases Secuencia (Texto) (Ninguno,) cadena
respuesta/normalized_matched_wiki_entity_name Texto cadena
respuesta/valor_normalizado Texto cadena
responder/escribir Texto cadena
respuesta/valor Texto cadena
entidades_paginas Secuencia
entidad_páginas/doc_fuente Texto cadena
entidad_páginas/nombre de archivo Texto cadena
entidad_páginas/título Texto cadena
entidad_páginas/wiki_contexto Texto cadena
pregunta Texto cadena
pregunta_id Texto cadena
pregunta_origen Texto cadena
Resultados de la búsqueda Secuencia
resultados_de_búsqueda/descripción Texto cadena
resultados_de_búsqueda/nombre de archivo Texto cadena
resultados_de_búsqueda/clasificación Tensor int32
resultados_de_búsqueda/contexto_de_búsqueda Texto cadena
resultados_de_búsqueda/título Texto cadena
resultados_de_búsqueda/url Texto cadena
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (configuración predeterminada)

  • Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta. Incluye contexto de Wikipedia y resultados de búsqueda.

  • Tamaño de descarga : 2.48 GiB

  • Tamaño del conjunto de datos : 14.99 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/rc.nocontext

  • Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta.

  • Tamaño de descarga : 2.48 GiB

  • Tamaño del conjunto de datos : 196.84 MiB

  • Almacenamiento automático en caché ( documentación ): Sí (prueba, validación), solo cuando shuffle_files=False (tren)

  • Divisiones :

Dividir Ejemplos
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/sin filtrar

  • Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR. Incluye contexto de Wikipedia y resultados de búsqueda.

  • Tamaño de descarga : 3.07 GiB

  • Tamaño del conjunto de datos : 27.27 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 10,832
'train' 87,622
'validation' 11,313

trivia_qa/sin filtrar.nocontext

  • Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR.

  • Tamaño de la descarga : 603.25 MiB

  • Tamaño del conjunto de datos : 119.78 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Dividir Ejemplos
'test' 10,832
'train' 87,622
'validation' 11,313
,

  • Descripción :

TriviaqQA es un conjunto de datos de comprensión de lectura que contiene más de 650 000 triples de preguntas, respuestas y pruebas. TriviaqQA incluye 95 000 pares de preguntas y respuestas creados por entusiastas de las trivias y documentos de evidencia recopilados de forma independiente, seis por pregunta en promedio, que brindan supervisión a distancia de alta calidad para responder las preguntas.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
respuesta CaracterísticasDict
respuesta/alias Secuencia (Texto) (Ninguno,) cadena
respuesta/matched_wiki_entity_name Texto cadena
respuesta/normalized_aliases Secuencia (Texto) (Ninguno,) cadena
respuesta/normalized_matched_wiki_entity_name Texto cadena
respuesta/valor_normalizado Texto cadena
responder/escribir Texto cadena
respuesta/valor Texto cadena
entidades_paginas Secuencia
entidad_páginas/doc_fuente Texto cadena
entidad_páginas/nombre de archivo Texto cadena
entidad_páginas/título Texto cadena
entidad_páginas/wiki_contexto Texto cadena
pregunta Texto cadena
pregunta_id Texto cadena
pregunta_origen Texto cadena
Resultados de la búsqueda Secuencia
resultados_de_búsqueda/descripción Texto cadena
resultados_de_búsqueda/nombre de archivo Texto cadena
resultados_de_búsqueda/clasificación Tensor int32
resultados_de_búsqueda/contexto_de_búsqueda Texto cadena
resultados_de_búsqueda/título Texto cadena
resultados_de_búsqueda/url Texto cadena
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (configuración predeterminada)

  • Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta. Incluye contexto de Wikipedia y resultados de búsqueda.

  • Tamaño de descarga : 2.48 GiB

  • Tamaño del conjunto de datos : 14.99 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/rc.nocontext

  • Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta.

  • Tamaño de descarga : 2.48 GiB

  • Tamaño del conjunto de datos : 196.84 MiB

  • Almacenamiento automático en caché ( documentación ): Sí (prueba, validación), solo cuando shuffle_files=False (tren)

  • Divisiones :

Dividir Ejemplos
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/sin filtrar

  • Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR. Incluye contexto de Wikipedia y resultados de búsqueda.

  • Tamaño de descarga : 3.07 GiB

  • Tamaño del conjunto de datos : 27.27 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 10,832
'train' 87,622
'validation' 11,313

trivia_qa/sin filtrar.nocontext

  • Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR.

  • Tamaño de la descarga : 603.25 MiB

  • Tamaño del conjunto de datos : 119.78 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Dividir Ejemplos
'test' 10,832
'train' 87,622
'validation' 11,313