Conozca lo último en aprendizaje automático, IA generativa y más en el Simposio WiML 2023.

Se usó la API de Cloud Translation para traducir esta página.

trivia_qa

Descripción :

TriviaqQA es un conjunto de datos de comprensión de lectura que contiene más de 650 000 triples de preguntas, respuestas y pruebas. TriviaqQA incluye 95 000 pares de preguntas y respuestas creados por entusiastas de las trivias y documentos de evidencia recopilados de forma independiente, seis por pregunta en promedio, que brindan supervisión a distancia de alta calidad para responder las preguntas.

Documentación adicional : Explore en Papers With Code
Página de inicio: http://nlp.cs.washington.edu/triviaqa/
Código fuente : tfds.datasets.trivia_qa.Builder
Versiones :
- 1.1.0 (predeterminado): Sin notas de la versión.
Estructura de características :

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})

Documentación de características :

Característica	Clase	Forma	Tipo D
	CaracterísticasDict
respuesta	CaracterísticasDict
respuesta/alias	Secuencia (Texto)	(Ninguno,)	cadena
respuesta/matched_wiki_entity_name	Texto		cadena
respuesta/normalized_aliases	Secuencia (Texto)	(Ninguno,)	cadena
respuesta/normalized_matched_wiki_entity_name	Texto		cadena
respuesta/valor_normalizado	Texto		cadena
responder/escribir	Texto		cadena
respuesta/valor	Texto		cadena
entidades_paginas	Secuencia
entidad_páginas/doc_fuente	Texto		cadena
entidad_páginas/nombre de archivo	Texto		cadena
entidad_páginas/título	Texto		cadena
entidad_páginas/wiki_contexto	Texto		cadena
pregunta	Texto		cadena
pregunta_id	Texto		cadena
pregunta_origen	Texto		cadena
Resultados de la búsqueda	Secuencia
resultados_de_búsqueda/descripción	Texto		cadena
resultados_de_búsqueda/nombre de archivo	Texto		cadena
resultados_de_búsqueda/clasificación	Tensor		int32
resultados_de_búsqueda/contexto_de_búsqueda	Texto		cadena
resultados_de_búsqueda/título	Texto		cadena
resultados_de_búsqueda/url	Texto		cadena

Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ): no compatible.
Cita :

@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (configuración predeterminada)

Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta. Incluye contexto de Wikipedia y resultados de búsqueda.
Tamaño de descarga : 2.48 GiB
Tamaño del conjunto de datos : 14.99 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Dividir	Ejemplos
`'test'`	17,210
`'train'`	138,384
`'validation'`	18,669

Ejemplos ( tfds.as_dataframe ):

trivia_qa/rc.nocontext

Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta.
Tamaño de descarga : 2.48 GiB
Tamaño del conjunto de datos : 196.84 MiB
Almacenamiento automático en caché ( documentación ): Sí (prueba, validación), solo cuando shuffle_files=False (tren)
Divisiones :

Dividir	Ejemplos
`'test'`	17,210
`'train'`	138,384
`'validation'`	18,669

Ejemplos ( tfds.as_dataframe ):

trivia_qa/sin filtrar

Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR. Incluye contexto de Wikipedia y resultados de búsqueda.
Tamaño de descarga : 3.07 GiB
Tamaño del conjunto de datos : 27.27 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Dividir	Ejemplos
`'test'`	10,832
`'train'`	87,622
`'validation'`	11,313

Ejemplos ( tfds.as_dataframe ):

trivia_qa/sin filtrar.nocontext

Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR.
Tamaño de la descarga : 603.25 MiB
Tamaño del conjunto de datos : 119.78 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Dividir	Ejemplos
`'test'`	10,832
`'train'`	87,622
`'validation'`	11,313

Ejemplos ( tfds.as_dataframe ):

Descripción :

Documentación adicional : Explore en Papers With Code
Página de inicio: http://nlp.cs.washington.edu/triviaqa/
Código fuente : tfds.datasets.trivia_qa.Builder
Versiones :
- 1.1.0 (predeterminado): Sin notas de la versión.
Estructura de características :

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})

Documentación de características :

Característica	Clase	Forma	Tipo D
	CaracterísticasDict
respuesta	CaracterísticasDict
respuesta/alias	Secuencia (Texto)	(Ninguno,)	cadena
respuesta/matched_wiki_entity_name	Texto		cadena
respuesta/normalized_aliases	Secuencia (Texto)	(Ninguno,)	cadena
respuesta/normalized_matched_wiki_entity_name	Texto		cadena
respuesta/valor_normalizado	Texto		cadena
responder/escribir	Texto		cadena
respuesta/valor	Texto		cadena
entidades_paginas	Secuencia
entidad_páginas/doc_fuente	Texto		cadena
entidad_páginas/nombre de archivo	Texto		cadena
entidad_páginas/título	Texto		cadena
entidad_páginas/wiki_contexto	Texto		cadena
pregunta	Texto		cadena
pregunta_id	Texto		cadena
pregunta_origen	Texto		cadena
Resultados de la búsqueda	Secuencia
resultados_de_búsqueda/descripción	Texto		cadena
resultados_de_búsqueda/nombre de archivo	Texto		cadena
resultados_de_búsqueda/clasificación	Tensor		int32
resultados_de_búsqueda/contexto_de_búsqueda	Texto		cadena
resultados_de_búsqueda/título	Texto		cadena
resultados_de_búsqueda/url	Texto		cadena

Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ): no compatible.
Cita :

@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (configuración predeterminada)

Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta. Incluye contexto de Wikipedia y resultados de búsqueda.
Tamaño de descarga : 2.48 GiB
Tamaño del conjunto de datos : 14.99 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Dividir	Ejemplos
`'test'`	17,210
`'train'`	138,384
`'validation'`	18,669

Ejemplos ( tfds.as_dataframe ):

trivia_qa/rc.nocontext

Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta.
Tamaño de descarga : 2.48 GiB
Tamaño del conjunto de datos : 196.84 MiB
Almacenamiento automático en caché ( documentación ): Sí (prueba, validación), solo cuando shuffle_files=False (tren)
Divisiones :

Dividir	Ejemplos
`'test'`	17,210
`'train'`	138,384
`'validation'`	18,669

Ejemplos ( tfds.as_dataframe ):

trivia_qa/sin filtrar

Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR. Incluye contexto de Wikipedia y resultados de búsqueda.
Tamaño de descarga : 3.07 GiB
Tamaño del conjunto de datos : 27.27 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Dividir	Ejemplos
`'test'`	10,832
`'train'`	87,622
`'validation'`	11,313

Ejemplos ( tfds.as_dataframe ):

trivia_qa/sin filtrar.nocontext

Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR.
Tamaño de la descarga : 603.25 MiB
Tamaño del conjunto de datos : 119.78 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Dividir	Ejemplos
`'test'`	10,832
`'train'`	87,622
`'validation'`	11,313

Ejemplos ( tfds.as_dataframe ):

trivia_qa Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

trivia_qa/rc (configuración predeterminada)

trivia_qa/rc.nocontext

trivia_qa/sin filtrar

trivia_qa/sin filtrar.nocontext

trivia_qa/rc (configuración predeterminada)

trivia_qa/rc.nocontext

trivia_qa/sin filtrar

trivia_qa/sin filtrar.nocontext

trivia_qa