- Descripción :
TriviaqQA es un conjunto de datos de comprensión de lectura que contiene más de 650 000 triples de preguntas, respuestas y pruebas. TriviaqQA incluye 95 000 pares de preguntas y respuestas creados por entusiastas de las trivias y documentos de evidencia recopilados de forma independiente, seis por pregunta en promedio, que brindan supervisión a distancia de alta calidad para responder las preguntas.
Documentación adicional : Explore en Papers With Code
Página de inicio: http://nlp.cs.washington.edu/triviaqa/
Código fuente :
tfds.datasets.trivia_qa.Builder
Versiones :
-
1.1.0
(predeterminado): Sin notas de la versión.
-
Estructura de características :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentación de características :
Característica | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
respuesta | CaracterísticasDict | |||
respuesta/alias | Secuencia (Texto) | (Ninguno,) | cadena | |
respuesta/matched_wiki_entity_name | Texto | cadena | ||
respuesta/normalized_aliases | Secuencia (Texto) | (Ninguno,) | cadena | |
respuesta/normalized_matched_wiki_entity_name | Texto | cadena | ||
respuesta/valor_normalizado | Texto | cadena | ||
responder/escribir | Texto | cadena | ||
respuesta/valor | Texto | cadena | ||
entidades_paginas | Secuencia | |||
entidad_páginas/doc_fuente | Texto | cadena | ||
entidad_páginas/nombre de archivo | Texto | cadena | ||
entidad_páginas/título | Texto | cadena | ||
entidad_páginas/wiki_contexto | Texto | cadena | ||
pregunta | Texto | cadena | ||
pregunta_id | Texto | cadena | ||
pregunta_origen | Texto | cadena | ||
Resultados de la búsqueda | Secuencia | |||
resultados_de_búsqueda/descripción | Texto | cadena | ||
resultados_de_búsqueda/nombre de archivo | Texto | cadena | ||
resultados_de_búsqueda/clasificación | Tensor | int32 | ||
resultados_de_búsqueda/contexto_de_búsqueda | Texto | cadena | ||
resultados_de_búsqueda/título | Texto | cadena | ||
resultados_de_búsqueda/url | Texto | cadena |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (configuración predeterminada)
Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta. Incluye contexto de Wikipedia y resultados de búsqueda.
Tamaño de descarga :
2.48 GiB
Tamaño del conjunto de datos :
14.99 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- Ejemplos ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta.
Tamaño de descarga :
2.48 GiB
Tamaño del conjunto de datos :
196.84 MiB
Almacenamiento automático en caché ( documentación ): Sí (prueba, validación), solo cuando
shuffle_files=False
(tren)Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- Ejemplos ( tfds.as_dataframe ):
trivia_qa/sin filtrar
Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR. Incluye contexto de Wikipedia y resultados de búsqueda.
Tamaño de descarga :
3.07 GiB
Tamaño del conjunto de datos :
27.27 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- Ejemplos ( tfds.as_dataframe ):
trivia_qa/sin filtrar.nocontext
Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR.
Tamaño de la descarga :
603.25 MiB
Tamaño del conjunto de datos :
119.78 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- Ejemplos ( tfds.as_dataframe ):
- Descripción :
TriviaqQA es un conjunto de datos de comprensión de lectura que contiene más de 650 000 triples de preguntas, respuestas y pruebas. TriviaqQA incluye 95 000 pares de preguntas y respuestas creados por entusiastas de las trivias y documentos de evidencia recopilados de forma independiente, seis por pregunta en promedio, que brindan supervisión a distancia de alta calidad para responder las preguntas.
Documentación adicional : Explore en Papers With Code
Página de inicio: http://nlp.cs.washington.edu/triviaqa/
Código fuente :
tfds.datasets.trivia_qa.Builder
Versiones :
-
1.1.0
(predeterminado): Sin notas de la versión.
-
Estructura de características :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentación de características :
Característica | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
respuesta | CaracterísticasDict | |||
respuesta/alias | Secuencia (Texto) | (Ninguno,) | cadena | |
respuesta/matched_wiki_entity_name | Texto | cadena | ||
respuesta/normalized_aliases | Secuencia (Texto) | (Ninguno,) | cadena | |
respuesta/normalized_matched_wiki_entity_name | Texto | cadena | ||
respuesta/valor_normalizado | Texto | cadena | ||
responder/escribir | Texto | cadena | ||
respuesta/valor | Texto | cadena | ||
entidades_paginas | Secuencia | |||
entidad_páginas/doc_fuente | Texto | cadena | ||
entidad_páginas/nombre de archivo | Texto | cadena | ||
entidad_páginas/título | Texto | cadena | ||
entidad_páginas/wiki_contexto | Texto | cadena | ||
pregunta | Texto | cadena | ||
pregunta_id | Texto | cadena | ||
pregunta_origen | Texto | cadena | ||
Resultados de la búsqueda | Secuencia | |||
resultados_de_búsqueda/descripción | Texto | cadena | ||
resultados_de_búsqueda/nombre de archivo | Texto | cadena | ||
resultados_de_búsqueda/clasificación | Tensor | int32 | ||
resultados_de_búsqueda/contexto_de_búsqueda | Texto | cadena | ||
resultados_de_búsqueda/título | Texto | cadena | ||
resultados_de_búsqueda/url | Texto | cadena |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (configuración predeterminada)
Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta. Incluye contexto de Wikipedia y resultados de búsqueda.
Tamaño de descarga :
2.48 GiB
Tamaño del conjunto de datos :
14.99 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- Ejemplos ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta.
Tamaño de descarga :
2.48 GiB
Tamaño del conjunto de datos :
196.84 MiB
Almacenamiento automático en caché ( documentación ): Sí (prueba, validación), solo cuando
shuffle_files=False
(tren)Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- Ejemplos ( tfds.as_dataframe ):
trivia_qa/sin filtrar
Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR. Incluye contexto de Wikipedia y resultados de búsqueda.
Tamaño de descarga :
3.07 GiB
Tamaño del conjunto de datos :
27.27 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- Ejemplos ( tfds.as_dataframe ):
trivia_qa/sin filtrar.nocontext
Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR.
Tamaño de la descarga :
603.25 MiB
Tamaño del conjunto de datos :
119.78 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- Ejemplos ( tfds.as_dataframe ):