domande_naturali

  • Descrizione :

Il corpus NQ contiene domande di utenti reali e richiede ai sistemi di QA di leggere e comprendere un intero articolo di Wikipedia che può contenere o meno la risposta alla domanda. L'inclusione di domande degli utenti reali e il requisito che le soluzioni debbano leggere un'intera pagina per trovare la risposta, fanno sì che NQ sia un'attività più realistica e impegnativa rispetto ai precedenti set di dati di QA.

Diviso Esempi
'train' 307.373
'validation' 7.830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

domande_naturali/default (configurazione predefinita)

  • Descrizione della configurazione : default natural_questions config

  • Dimensione del set di dati: 90.26 GiB

  • Struttura delle caratteristiche :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
annotazioni Sequenza
annotazioni/id Tensore corda
annotazioni/risposta_lunga CaratteristicheDict
annotazioni/risposta_lunga/byte_end Tensore int64
annotations/long_answer/end_token Tensore int64
annotazioni/risposta_lunga/byte_iniziale Tensore int64
annotations/long_answer/start_token Tensore int64
annotazioni/risposte_brevi Sequenza
annotazioni/risposte_brevi/end_byte Tensore int64
annotazioni/risposte_brevi/end_token Tensore int64
annotazioni/risposte_brevi/byte_iniziale Tensore int64
annotazioni/risposte_brevi/token_iniziale Tensore int64
annotazioni/risposte_brevi/testo Testo corda
annotazioni/sì_no_risposta ClassLabel int64
documento CaratteristicheDict
documento/html Testo corda
titolo del documento Testo corda
documento/token Sequenza
documento/token/is_html Tensore bool
documento/token/token Testo corda
documento/url Testo corda
id Tensore corda
domanda CaratteristicheDict
domanda/testo Testo corda
domanda/gettoni Sequenza (tensore) (Nessuno,) corda

domande_naturali/longt5

  • Descrizione della configurazione : domande_naturali preelaborate come nel benchmark longT5

  • Dimensione del set di dati: 8.91 GiB

  • Struttura delle caratteristiche :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
tutte_risposte Sequenza(Testo) (Nessuno,) corda
risposta Testo corda
contesto Testo corda
id Testo corda
domanda Testo corda
titolo Testo corda