- Açıklama :
Stanford Question Answering Dataset (SQuAD), her sorunun cevabının ilgili okuma pasajından veya sorudan bir metin parçası veya aralığı olduğu bir dizi Wikipedia makalesinde kalabalık çalışanlar tarafından yöneltilen sorulardan oluşan bir okuduğunu anlama veri kümesidir. cevapsız olabilir.
Ana sayfa : https://rajpurkar.github.io/SQuAD-explorer/
Kaynak kodu :
tfds.datasets.squad.Builder
sürümler :
-
3.0.0
(varsayılan): Bağlamdaki boşlukların kaldırılması nedeniyle yanıt aralıklarının yanlış hizalandığı az sayıda örnekle (19) ilgili sorunu düzeltir.
-
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
Squad/v1.1 (varsayılan yapılandırma)
Yapılandırma açıklaması : SQUAD Sürüm 1.1.0
İndirme boyutu :
33.51 MiB
Veri kümesi boyutu :
94.06 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 87.599 |
'validation' | 10.570 |
- Özellik yapısı :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Açıklama |
---|---|---|---|---|
ÖzelliklerDict | ||||
Yanıtlar | Sıra | |||
cevaplar/cevap_başlangıç | tensör | int32 | ||
cevaplar/metin | Metin | sicim | ||
bağlam | Metin | sicim | ||
İD | tensör | sicim | ||
soru | Metin | sicim | ||
Başlık | Metin | sicim |
- Örnekler ( tfds.as_dataframe ):
takım/v2.0
Yapılandırma açıklaması : SQUAD'in 2.0.0 sürümü
İndirme boyutu :
44.34 MiB
Veri kümesi boyutu :
148.54 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet (doğrulama), Yalnızca
shuffle_files=False
(tren) olduğundabölmeler :
Bölmek | örnekler |
---|---|
'train' | 130.319 |
'validation' | 11.873 |
- Özellik yapısı :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Açıklama |
---|---|---|---|---|
ÖzelliklerDict | ||||
Yanıtlar | Sıra | |||
cevaplar/cevap_başlangıç | tensör | int32 | ||
cevaplar/metin | Metin | sicim | ||
bağlam | Metin | sicim | ||
İD | tensör | sicim | ||
imkansız | tensör | bool | ||
makul_cevaplar | Sıra | |||
makul_cevaplar/answer_start | tensör | int32 | ||
makul_cevaplar/metin | Metin | sicim | ||
soru | Metin | sicim | ||
Başlık | Metin | sicim |
- Örnekler ( tfds.as_dataframe ):