- Descrição :
TriviaqQA é um conjunto de dados de compreensão de leitura contendo mais de 650 mil perguntas-respostas-evidências triplas. O TriviaqQA inclui 95 mil pares de perguntas e respostas de autoria de entusiastas de curiosidades e documentos de evidências coletados independentemente, seis por pergunta em média, que fornecem supervisão distante de alta qualidade para responder às perguntas.
Documentação Adicional : Explore em Papers With Code
Página inicial : http://nlp.cs.washington.edu/triviaqa/
Código -fonte:
tfds.datasets.trivia_qa.Builder
Versões :
-
1.1.0
(padrão): sem notas de versão.
-
Estrutura de recursos :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentação do recurso:
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
responder | RecursosDict | |||
resposta/aliases | Sequência (Texto) | (Nenhum,) | corda | |
resposta/matched_wiki_entity_name | Texto | corda | ||
answer/normalized_aliases | Sequência (Texto) | (Nenhum,) | corda | |
answer/normalized_matched_wiki_entity_name | Texto | corda | ||
resposta/valor_normalizado | Texto | corda | ||
responder/digitar | Texto | corda | ||
resposta/valor | Texto | corda | ||
entity_pages | Seqüência | |||
entity_pages/doc_source | Texto | corda | ||
entity_pages/filename | Texto | corda | ||
entity_pages/title | Texto | corda | ||
entity_pages/wiki_context | Texto | corda | ||
pergunta | Texto | corda | ||
question_id | Texto | corda | ||
question_source | Texto | corda | ||
Procurar Resultados | Seqüência | |||
resultados_pesquisa/descrição | Texto | corda | ||
search_results/filename | Texto | corda | ||
resultados_pesquisa/classificação | tensor | int32 | ||
resultados_pesquisa/contexto_pesquisa | Texto | corda | ||
resultados_pesquisa/título | Texto | corda | ||
search_results/url | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Citação :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (configuração padrão)
Descrição da configuração : Pares de pergunta-resposta em que todos os documentos para uma determinada pergunta contêm a(s) string(s) de resposta. Inclui contexto da Wikipedia e resultados de pesquisa.
Tamanho do download :
2.48 GiB
Tamanho do conjunto de dados :
14.99 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Exemplos ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Descrição da configuração : Pares de pergunta-resposta em que todos os documentos para uma determinada pergunta contêm a(s) string(s) de resposta.
Tamanho do download :
2.48 GiB
Tamanho do conjunto de dados :
196.84 MiB
Cache automático ( documentação ): Sim (teste, validação), somente quando
shuffle_files=False
(train)Divisões :
Dividir | Exemplos |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Exemplos ( tfds.as_dataframe ):
trivia_qa/não filtrado
Descrição da configuração : 110 mil pares de perguntas e respostas para controle de qualidade de domínio aberto, em que nem todos os documentos de uma determinada pergunta contêm a(s) string(s) de resposta. Isso torna o conjunto de dados não filtrado mais apropriado para controle de qualidade no estilo IR. Inclui contexto da Wikipedia e resultados de pesquisa.
Tamanho do download :
3.07 GiB
Tamanho do conjunto de dados :
27.27 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Exemplos ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Descrição da configuração : 110 mil pares de perguntas e respostas para controle de qualidade de domínio aberto, em que nem todos os documentos de uma determinada pergunta contêm a(s) string(s) de resposta. Isso torna o conjunto de dados não filtrado mais apropriado para controle de qualidade no estilo IR.
Tamanho do download :
603.25 MiB
Tamanho do conjunto de dados :
119.78 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Exemplos ( tfds.as_dataframe ):
- Descrição :
TriviaqQA é um conjunto de dados de compreensão de leitura contendo mais de 650 mil perguntas-respostas-evidências triplas. O TriviaqQA inclui 95 mil pares de perguntas e respostas de autoria de entusiastas de curiosidades e documentos de evidências coletados independentemente, seis por pergunta em média, que fornecem supervisão distante de alta qualidade para responder às perguntas.
Documentação Adicional : Explore em Papers With Code
Página inicial : http://nlp.cs.washington.edu/triviaqa/
Código -fonte:
tfds.datasets.trivia_qa.Builder
Versões :
-
1.1.0
(padrão): sem notas de versão.
-
Estrutura de recursos :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentação do recurso:
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
responder | RecursosDict | |||
resposta/aliases | Sequência (Texto) | (Nenhum,) | corda | |
resposta/matched_wiki_entity_name | Texto | corda | ||
answer/normalized_aliases | Sequência (Texto) | (Nenhum,) | corda | |
answer/normalized_matched_wiki_entity_name | Texto | corda | ||
resposta/valor_normalizado | Texto | corda | ||
responder/digitar | Texto | corda | ||
resposta/valor | Texto | corda | ||
entity_pages | Seqüência | |||
entity_pages/doc_source | Texto | corda | ||
entity_pages/filename | Texto | corda | ||
entity_pages/title | Texto | corda | ||
entity_pages/wiki_context | Texto | corda | ||
pergunta | Texto | corda | ||
question_id | Texto | corda | ||
question_source | Texto | corda | ||
Procurar Resultados | Seqüência | |||
resultados_pesquisa/descrição | Texto | corda | ||
search_results/filename | Texto | corda | ||
resultados_pesquisa/classificação | tensor | int32 | ||
resultados_pesquisa/contexto_pesquisa | Texto | corda | ||
resultados_pesquisa/título | Texto | corda | ||
search_results/url | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Citação :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (configuração padrão)
Descrição da configuração : Pares de pergunta-resposta em que todos os documentos para uma determinada pergunta contêm a(s) string(s) de resposta. Inclui contexto da Wikipedia e resultados de pesquisa.
Tamanho do download :
2.48 GiB
Tamanho do conjunto de dados :
14.99 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Exemplos ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Descrição da configuração : Pares de pergunta-resposta em que todos os documentos para uma determinada pergunta contêm a(s) string(s) de resposta.
Tamanho do download :
2.48 GiB
Tamanho do conjunto de dados :
196.84 MiB
Cache automático ( documentação ): Sim (teste, validação), somente quando
shuffle_files=False
(train)Divisões :
Dividir | Exemplos |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Exemplos ( tfds.as_dataframe ):
trivia_qa/não filtrado
Descrição da configuração : 110 mil pares de perguntas e respostas para controle de qualidade de domínio aberto, em que nem todos os documentos de uma determinada pergunta contêm a(s) string(s) de resposta. Isso torna o conjunto de dados não filtrado mais apropriado para controle de qualidade no estilo IR. Inclui contexto da Wikipedia e resultados de pesquisa.
Tamanho do download :
3.07 GiB
Tamanho do conjunto de dados :
27.27 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Exemplos ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Descrição da configuração : 110 mil pares de perguntas e respostas para controle de qualidade de domínio aberto, em que nem todos os documentos de uma determinada pergunta contêm a(s) string(s) de resposta. Isso torna o conjunto de dados não filtrado mais apropriado para controle de qualidade no estilo IR.
Tamanho do download :
603.25 MiB
Tamanho do conjunto de dados :
119.78 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Exemplos ( tfds.as_dataframe ):