perguntas_naturais

  • Descrição :

O corpus NQ contém perguntas de usuários reais e requer que os sistemas de controle de qualidade leiam e compreendam um artigo inteiro da Wikipédia que pode ou não conter a resposta para a pergunta. A inclusão de perguntas reais do usuário e a exigência de que as soluções devem ler uma página inteira para encontrar a resposta fazem com que o NQ seja uma tarefa mais realista e desafiadora do que os conjuntos de dados de QA anteriores.

Dividir Exemplos
'train' 307.373
'validation' 7.830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (configuração padrão)

  • Descrição da configuração : configuração natural_questions padrão

  • Tamanho do conjunto de dados : 90.26 GiB

  • Estrutura de recursos :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})
  • Documentação do recurso:
Recurso Aula Forma Tipo D Descrição
RecursosDict
anotações Seqüência
anotações/id tensor corda
anotações/resposta_longa RecursosDict
anotações/long_answer/end_byte tensor int64
anotações/long_answer/end_token tensor int64
anotações/long_answer/start_byte tensor int64
anotações/long_answer/start_token tensor int64
anotações/respostas curtas Seqüência
anotações/short_answers/end_byte tensor int64
anotações/short_answers/end_token tensor int64
anotações/short_answers/start_byte tensor int64
anotações/short_answers/start_token tensor int64
anotações/short_answers/texto Texto corda
anotações/sim_não_resposta ClassLabel int64
documento RecursosDict
documento/html Texto corda
título do documento Texto corda
documento/tokens Seqüência
document/tokens/is_html tensor bool
documento/tokens/token Texto corda
documento/url Texto corda
eu ia tensor corda
pergunta RecursosDict
pergunta/texto Texto corda
pergunta/tokens Sequência(Tensor) (Nenhum,) corda

natural_questions/longt5

  • Descrição da configuração : natural_questions pré-processado como no benchmark longT5

  • Tamanho do conjunto de dados : 8.91 GiB

  • Estrutura de recursos :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Recurso Aula Forma Tipo D Descrição
RecursosDict
todas_respostas Sequência (Texto) (Nenhum,) corda
responder Texto corda
contexto Texto corda
eu ia Texto corda
pergunta Texto corda
título Texto corda