- Açıklama :
NQ külliyatı, gerçek kullanıcılardan gelen soruları içerir ve QA sistemlerinin, sorunun yanıtını içerebilecek veya içermeyebilecek tüm bir Wikipedia makalesini okumasını ve anlamasını gerektirir. Gerçek kullanıcı sorularının dahil edilmesi ve çözümlerin yanıtı bulmak için tüm sayfayı okuması gerekliliği, NQ'nun önceki KG veri kümelerinden daha gerçekçi ve zorlu bir görev olmasına neden olur.
Ana Sayfa : https://ai.google.com/research/NaturalQuestions/dataset
Kaynak kodu :
tfds.datasets.natural_questions.Builder
sürümler :
-
0.0.2
: Sürüm notu yok. -
0.1.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
41.97 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 307.373 |
'validation' | 7.830 |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
natural_questions/default (varsayılan yapılandırma)
Yapılandırma açıklaması : Varsayılan natural_questions yapılandırması
Veri kümesi boyutu :
90.26 GiB
Özellik yapısı :
FeaturesDict({
'annotations': Sequence({
'id': string,
'long_answer': FeaturesDict({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
}),
'short_answers': Sequence({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
'text': Text(shape=(), dtype=string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'tokens': Sequence({
'is_html': bool,
'token': Text(shape=(), dtype=string),
}),
'url': Text(shape=(), dtype=string),
}),
'id': string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=string),
'tokens': Sequence(string),
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
açıklamalar | Sekans | |||
ek açıklamalar/kimlik | tensör | sicim | ||
ek açıklamalar/uzun_cevap | ÖzelliklerDict | |||
ek açıklamalar/long_answer/end_byte | tensör | int64 | ||
ek açıklamalar/long_answer/end_token | tensör | int64 | ||
ek açıklamalar/long_answer/start_byte | tensör | int64 | ||
ek açıklamalar/long_answer/start_token | tensör | int64 | ||
ek açıklamalar/kısa_cevaplar | Sekans | |||
ek açıklamalar/short_answers/end_byte | tensör | int64 | ||
ek açıklamalar/short_answers/end_token | tensör | int64 | ||
ek açıklamalar/short_answers/start_byte | tensör | int64 | ||
ek açıklamalar/short_answers/start_token | tensör | int64 | ||
ek açıklamalar/kısa_cevaplar/metin | Metin | sicim | ||
ek açıklamalar/yes_no_answer | SınıfEtiketi | int64 | ||
belge | ÖzelliklerDict | |||
belge/html | Metin | sicim | ||
belge başlığı | Metin | sicim | ||
belge/belirteçler | Sekans | |||
belge/belirteçler/is_html | tensör | bool | ||
belge/belirteçler/belirteç | Metin | sicim | ||
belge/url | Metin | sicim | ||
İD | tensör | sicim | ||
soru | ÖzelliklerDict | |||
soru/metin | Metin | sicim | ||
soru/jetonlar | Sıra(Tensor) | (Hiçbiri,) | sicim |
- Örnekler ( tfds.as_dataframe ):
doğal_sorular/uzunt5
Yapılandırma açıklaması : longT5 kıyaslamasında olduğu gibi önceden işlenmiş natural_questions
Veri kümesi boyutu :
8.91 GiB
Özellik yapısı :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=string)),
'answer': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
tüm_cevaplar | Sıra(Metin) | (Hiçbiri,) | sicim | |
cevap | Metin | sicim | ||
bağlam | Metin | sicim | ||
İD | Metin | sicim | ||
soru | Metin | sicim | ||
başlık | Metin | sicim |
- Örnekler ( tfds.as_dataframe ):