natural_questions

  • Açıklama :

NQ külliyatı, gerçek kullanıcılardan gelen soruları içerir ve QA sistemlerinin, sorunun yanıtını içerebilecek veya içermeyebilecek tüm bir Wikipedia makalesini okumasını ve anlamasını gerektirir. Gerçek kullanıcı sorularının dahil edilmesi ve çözümlerin yanıtı bulmak için tüm sayfayı okuması gerekliliği, NQ'nun önceki KG veri kümelerinden daha gerçekçi ve zorlu bir görev olmasına neden olur.

Bölmek örnekler
'train' 307.373
'validation' 7.830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Varsayılan natural_questions yapılandırması

  • Veri kümesi boyutu : 90.26 GiB

  • Özellik yapısı :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
açıklamalar Sekans
ek açıklamalar/kimlik tensör sicim
ek açıklamalar/uzun_cevap ÖzelliklerDict
ek açıklamalar/long_answer/end_byte tensör int64
ek açıklamalar/long_answer/end_token tensör int64
ek açıklamalar/long_answer/start_byte tensör int64
ek açıklamalar/long_answer/start_token tensör int64
ek açıklamalar/kısa_cevaplar Sekans
ek açıklamalar/short_answers/end_byte tensör int64
ek açıklamalar/short_answers/end_token tensör int64
ek açıklamalar/short_answers/start_byte tensör int64
ek açıklamalar/short_answers/start_token tensör int64
ek açıklamalar/kısa_cevaplar/metin Metin sicim
ek açıklamalar/yes_no_answer SınıfEtiketi int64
belge ÖzelliklerDict
belge/html Metin sicim
belge başlığı Metin sicim
belge/belirteçler Sekans
belge/belirteçler/is_html tensör bool
belge/belirteçler/belirteç Metin sicim
belge/url Metin sicim
İD tensör sicim
soru ÖzelliklerDict
soru/metin Metin sicim
soru/jetonlar Sıra(Tensor) (Hiçbiri,) sicim

doğal_sorular/uzunt5

  • Yapılandırma açıklaması : longT5 kıyaslamasında olduğu gibi önceden işlenmiş natural_questions

  • Veri kümesi boyutu : 8.91 GiB

  • Özellik yapısı :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
tüm_cevaplar Sıra(Metin) (Hiçbiri,) sicim
cevap Metin sicim
bağlam Metin sicim
İD Metin sicim
soru Metin sicim
başlık Metin sicim