Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

perguntas_naturais
bookmark_border Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Descrição :

O corpus NQ contém perguntas de usuários reais e requer que os sistemas de controle de qualidade leiam e compreendam um artigo inteiro da Wikipédia que pode ou não conter a resposta para a pergunta. A inclusão de perguntas reais do usuário e a exigência de que as soluções devem ler uma página inteira para encontrar a resposta fazem com que o NQ seja uma tarefa mais realista e desafiadora do que os conjuntos de dados de QA anteriores.

Documentação Adicional : Explore em Papers With Code
Página inicial : https://ai.google.com/research/NaturalQuestions/dataset
Código -fonte: tfds.datasets.natural_questions.Builder
Versões :
- 0.0.2 : Sem notas de versão.
- 0.1.0 (padrão): sem notas de versão.
Tamanho do download : 41.97 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'train'`	307.373
`'validation'`	7.830

Chaves supervisionadas (Consulte as_supervised doc ): None
Figura ( tfds.show_examples ): Não suportado.
Citação :

@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (configuração padrão)

Descrição da configuração : configuração natural_questions padrão
Tamanho do conjunto de dados : 90.26 GiB
Estrutura de recursos :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})

Documentação do recurso:

Recurso	Aula	Forma	Tipo D
	RecursosDict
anotações	Seqüência
anotações/id	tensor		corda
anotações/resposta_longa	RecursosDict
anotações/long_answer/end_byte	tensor		int64
anotações/long_answer/end_token	tensor		int64
anotações/long_answer/start_byte	tensor		int64
anotações/long_answer/start_token	tensor		int64
anotações/respostas curtas	Seqüência
anotações/short_answers/end_byte	tensor		int64
anotações/short_answers/end_token	tensor		int64
anotações/short_answers/start_byte	tensor		int64
anotações/short_answers/start_token	tensor		int64
anotações/short_answers/texto	Texto		corda
anotações/sim_não_resposta	ClassLabel		int64
documento	RecursosDict
documento/html	Texto		corda
título do documento	Texto		corda
documento/tokens	Seqüência
document/tokens/is_html	tensor		bool
documento/tokens/token	Texto		corda
documento/url	Texto		corda
eu ia	tensor		corda
pergunta	RecursosDict
pergunta/texto	Texto		corda
pergunta/tokens	Sequência(Tensor)	(Nenhum,)	corda

Exemplos ( tfds.as_dataframe ):

natural_questions/longt5

Descrição da configuração : natural_questions pré-processado como no benchmark longT5
Tamanho do conjunto de dados : 8.91 GiB
Estrutura de recursos :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

Documentação do recurso:

Recurso	Aula	Forma	Tipo D
	RecursosDict
todas_respostas	Sequência (Texto)	(Nenhum,)	corda
responder	Texto		corda
contexto	Texto		corda
eu ia	Texto		corda
pergunta	Texto		corda
título	Texto		corda

Exemplos ( tfds.as_dataframe ):

perguntas_naturais bookmark_borderbookmark Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

natural_questions/default (configuração padrão)

natural_questions/longt5

perguntas_naturais
bookmark_border Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.