- Açıklama :
TriviaqQA, 650.000'den fazla soru-cevap-kanıt üçlüsü içeren bir okuduğunu anlama veri kümesidir. TriviaqQA, trivia meraklıları tarafından yazılan 95.000 soru-cevap çiftini ve soruları yanıtlamak için yüksek kalitede uzaktan denetim sağlayan, soru başına ortalama altı adet olmak üzere bağımsız olarak toplanmış kanıt belgelerini içerir.
Ana sayfa : http://nlp.cs.washington.edu/triviaqa/
Kaynak kodu :
tfds.datasets.trivia_qa.Builder
sürümler :
-
1.1.0
(varsayılan): Sürüm notu yok.
-
Özellik yapısı :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
cevap | ÖzelliklerDict | |||
cevap/takma adlar | Sıra(Metin) | (Hiçbiri,) | sicim | |
answer/matched_wiki_entity_name | Metin | sicim | ||
cevap/normalleştirilmiş_aliases | Sıra(Metin) | (Hiçbiri,) | sicim | |
answer/normalized_matched_wiki_entity_name | Metin | sicim | ||
cevap/normalleştirilmiş_değer | Metin | sicim | ||
cevapla/yaz | Metin | sicim | ||
cevap/değer | Metin | sicim | ||
varlık_sayfaları | Sekans | |||
entity_pages/doc_source | Metin | sicim | ||
varlık_sayfaları/dosyaadı | Metin | sicim | ||
varlık_sayfaları/başlık | Metin | sicim | ||
entity_pages/wiki_context | Metin | sicim | ||
soru | Metin | sicim | ||
soru_kimliği | Metin | sicim | ||
soru_kaynağı | Metin | sicim | ||
Arama Sonuçları | Sekans | |||
arama_sonuçları/açıklama | Metin | sicim | ||
arama_sonuçları/dosyaadı | Metin | sicim | ||
arama_sonuçları/sıralama | tensör | int32 | ||
search_results/search_context | Metin | sicim | ||
arama_sonuçları/başlık | Metin | sicim | ||
arama_sonuçları/url | Metin | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (varsayılan yapılandırma)
Yapılandırma açıklaması : Belirli bir soru için tüm belgelerin yanıt dizelerini içerdiği soru-yanıt çiftleri. Wikipedia'dan ve arama sonuçlarından bağlam içerir.
İndirme boyutu :
2.48 GiB
Veri kümesi boyutu :
14.99 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Örnekler ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Yapılandırma açıklaması : Belirli bir soru için tüm belgelerin yanıt dizelerini içerdiği soru-yanıt çiftleri.
İndirme boyutu :
2.48 GiB
Veri kümesi boyutu :
196.84 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet (test, doğrulama), Yalnızca
shuffle_files=False
(tren) olduğundabölmeler :
Bölmek | örnekler |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Örnekler ( tfds.as_dataframe ):
trivia_qa/filtrelenmemiş
Yapılandırma açıklaması : Belirli bir soru için tüm belgelerin yanıt dizelerini içermediği açık alan QA için 110.000 soru-yanıt çifti. Bu, filtrelenmemiş veri kümesini IR tarzı KG için daha uygun hale getirir. Wikipedia'dan ve arama sonuçlarından bağlam içerir.
İndirme boyutu :
3.07 GiB
Veri kümesi boyutu :
27.27 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Örnekler ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Yapılandırma açıklaması : Belirli bir soru için tüm belgelerin yanıt dizelerini içermediği açık alan QA için 110.000 soru-yanıt çifti. Bu, filtrelenmemiş veri kümesini IR tarzı KG için daha uygun hale getirir.
İndirme boyutu :
603.25 MiB
Veri kümesi boyutu :
119.78 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Örnekler ( tfds.as_dataframe ):
- Açıklama :
TriviaqQA, 650.000'den fazla soru-cevap-kanıt üçlüsü içeren bir okuduğunu anlama veri kümesidir. TriviaqQA, trivia meraklıları tarafından yazılan 95.000 soru-cevap çiftini ve soruları yanıtlamak için yüksek kalitede uzaktan denetim sağlayan, soru başına ortalama altı adet olmak üzere bağımsız olarak toplanmış kanıt belgelerini içerir.
Ana sayfa : http://nlp.cs.washington.edu/triviaqa/
Kaynak kodu :
tfds.datasets.trivia_qa.Builder
sürümler :
-
1.1.0
(varsayılan): Sürüm notu yok.
-
Özellik yapısı :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
cevap | ÖzelliklerDict | |||
cevap/takma adlar | Sıra(Metin) | (Hiçbiri,) | sicim | |
answer/matched_wiki_entity_name | Metin | sicim | ||
cevap/normalleştirilmiş_aliases | Sıra(Metin) | (Hiçbiri,) | sicim | |
answer/normalized_matched_wiki_entity_name | Metin | sicim | ||
cevap/normalleştirilmiş_değer | Metin | sicim | ||
cevapla/yaz | Metin | sicim | ||
cevap/değer | Metin | sicim | ||
varlık_sayfaları | Sekans | |||
entity_pages/doc_source | Metin | sicim | ||
varlık_sayfaları/dosyaadı | Metin | sicim | ||
varlık_sayfaları/başlık | Metin | sicim | ||
entity_pages/wiki_context | Metin | sicim | ||
soru | Metin | sicim | ||
soru_kimliği | Metin | sicim | ||
soru_kaynağı | Metin | sicim | ||
Arama Sonuçları | Sekans | |||
arama_sonuçları/açıklama | Metin | sicim | ||
arama_sonuçları/dosyaadı | Metin | sicim | ||
arama_sonuçları/sıralama | tensör | int32 | ||
search_results/search_context | Metin | sicim | ||
arama_sonuçları/başlık | Metin | sicim | ||
arama_sonuçları/url | Metin | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (varsayılan yapılandırma)
Yapılandırma açıklaması : Belirli bir soru için tüm belgelerin yanıt dizelerini içerdiği soru-yanıt çiftleri. Wikipedia'dan ve arama sonuçlarından bağlam içerir.
İndirme boyutu :
2.48 GiB
Veri kümesi boyutu :
14.99 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Örnekler ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Yapılandırma açıklaması : Belirli bir soru için tüm belgelerin yanıt dizelerini içerdiği soru-yanıt çiftleri.
İndirme boyutu :
2.48 GiB
Veri kümesi boyutu :
196.84 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet (test, doğrulama), Yalnızca
shuffle_files=False
(tren) olduğundabölmeler :
Bölmek | örnekler |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Örnekler ( tfds.as_dataframe ):
trivia_qa/filtresiz
Yapılandırma açıklaması : Belirli bir soru için tüm belgelerin yanıt dizelerini içermediği açık alan QA için 110.000 soru-yanıt çifti. Bu, filtrelenmemiş veri kümesini IR tarzı KG için daha uygun hale getirir. Wikipedia'dan ve arama sonuçlarından bağlam içerir.
İndirme boyutu :
3.07 GiB
Veri kümesi boyutu :
27.27 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Örnekler ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Yapılandırma açıklaması : Belirli bir soru için tüm belgelerin yanıt dizelerini içermediği açık alan QA için 110.000 soru-yanıt çifti. Bu, filtrelenmemiş veri kümesini IR tarzı KG için daha uygun hale getirir.
İndirme boyutu :
603.25 MiB
Veri kümesi boyutu :
119.78 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Örnekler ( tfds.as_dataframe ):