- Descrição :
O corpus NQ contém perguntas de usuários reais e requer que os sistemas de controle de qualidade leiam e compreendam um artigo inteiro da Wikipédia que pode ou não conter a resposta para a pergunta. A inclusão de perguntas reais do usuário e a exigência de que as soluções devem ler uma página inteira para encontrar a resposta fazem com que o NQ seja uma tarefa mais realista e desafiadora do que os conjuntos de dados de QA anteriores.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://ai.google.com/research/NaturalQuestions/dataset
Código -fonte:
tfds.datasets.natural_questions.Builder
Versões :
-
0.0.2
: Sem notas de versão. -
0.1.0
(padrão): sem notas de versão.
-
Tamanho do download :
41.97 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 307.373 |
'validation' | 7.830 |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Citação :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
natural_questions/default (configuração padrão)
Descrição da configuração : configuração natural_questions padrão
Tamanho do conjunto de dados :
90.26 GiB
Estrutura de recursos :
FeaturesDict({
'annotations': Sequence({
'id': string,
'long_answer': FeaturesDict({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
}),
'short_answers': Sequence({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
'text': Text(shape=(), dtype=string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'tokens': Sequence({
'is_html': bool,
'token': Text(shape=(), dtype=string),
}),
'url': Text(shape=(), dtype=string),
}),
'id': string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=string),
'tokens': Sequence(string),
}),
})
- Documentação do recurso:
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
anotações | Seqüência | |||
anotações/id | tensor | corda | ||
anotações/resposta_longa | RecursosDict | |||
anotações/long_answer/end_byte | tensor | int64 | ||
anotações/long_answer/end_token | tensor | int64 | ||
anotações/long_answer/start_byte | tensor | int64 | ||
anotações/long_answer/start_token | tensor | int64 | ||
anotações/respostas curtas | Seqüência | |||
anotações/short_answers/end_byte | tensor | int64 | ||
anotações/short_answers/end_token | tensor | int64 | ||
anotações/short_answers/start_byte | tensor | int64 | ||
anotações/short_answers/start_token | tensor | int64 | ||
anotações/short_answers/texto | Texto | corda | ||
anotações/sim_não_resposta | ClassLabel | int64 | ||
documento | RecursosDict | |||
documento/html | Texto | corda | ||
título do documento | Texto | corda | ||
documento/tokens | Seqüência | |||
document/tokens/is_html | tensor | bool | ||
documento/tokens/token | Texto | corda | ||
documento/url | Texto | corda | ||
eu ia | tensor | corda | ||
pergunta | RecursosDict | |||
pergunta/texto | Texto | corda | ||
pergunta/tokens | Sequência(Tensor) | (Nenhum,) | corda |
- Exemplos ( tfds.as_dataframe ):
natural_questions/longt5
Descrição da configuração : natural_questions pré-processado como no benchmark longT5
Tamanho do conjunto de dados :
8.91 GiB
Estrutura de recursos :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=string)),
'answer': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
todas_respostas | Sequência (Texto) | (Nenhum,) | corda | |
responder | Texto | corda | ||
contexto | Texto | corda | ||
eu ia | Texto | corda | ||
pergunta | Texto | corda | ||
título | Texto | corda |
- Exemplos ( tfds.as_dataframe ):