- Açıklama :
TyDi QA, 204 bin soru-cevap çifti ile tipolojik olarak farklı 11 dili kapsayan bir soru yanıtlama veri kümesidir. TyDi QA'nın dilleri, tipolojilerine (her dilin ifade ettiği dilsel özellikler kümesi) göre çeşitlilik gösterir; öyle ki, bu kümede iyi performans gösteren modellerin dünyadaki çok sayıda dilde genelleme yapmasını bekleriz. Yalnızca İngilizce olan derlemlerde bulunamayacak dil olgularını içerir. Gerçekçi bir bilgi arama görevi sağlamak ve ön hazırlık etkilerinden kaçınmak için sorular, yanıtı bilmek isteyen ancak henüz yanıtı bilmeyen kişiler tarafından yazılır (SQuAD ve onun soyundan gelenlerin aksine) ve veriler doğrudan her dilde toplanır. çeviri kullanılmadan (MLQA ve XQuAD'den farklı olarak).
Eğitim bölümleri:
'tren': Bu, orijinal dil etiketli eğitim verilerini içeren orijinal TyDi QA belgesinden [ https://arxiv.org/abs/2003.05002 ] GoldP görevidir.
'translate-train-*': Bu bölümler, XTREME belgesindeki [ https://arxiv.org/abs/2003.11080 ] translate-train temel çizgilerinde kullanılan İngilizce'den her bir hedef dile otomatik çevirilerdir. Bu, orijinal dil verilerinin mevcut olmadığı ve sistem kurucularının etiketli İngilizce verilere ve mevcut makine çevirisi sistemlerine güvenmek zorunda olduğu transfer öğrenme senaryosunu simüle etmek için İngilizce olmayan TyDiQA-GoldP eğitim verilerini kasıtlı olarak yok sayar.
Tipik olarak, YA treni ya da tercüme-tren ayrımını kullanmalısınız, ancak ikisini birden kullanmamalısınız.
Yapılandırma açıklaması : Altın geçişi (GoldP) görevi ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
Ana sayfa : https://github.com/google-research-datasets/tydiqa
Kaynak kodu :
tfds.question_answering.TydiQA
sürümler :
-
3.0.0
(varsayılan): Bağlamdaki boşlukların kaldırılması nedeniyle yanıt aralıklarının yanlış hizalandığı bir dizi örnekle ilgili sorunu düzeltir. Bu değişiklik, tren ve geliştirme örneklerinin kabaca %25'ini etkiler.
-
İndirme boyutu :
121.30 MiB
Veri kümesi boyutu :
98.35 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 49.881 |
'translate-train-ar' | 3.661 |
'translate-train-bn' | 3.585 |
'translate-train-fi' | 3.670 |
'translate-train-id' | 3.667 |
'translate-train-ko' | 3.607 |
'translate-train-ru' | 3.394 |
'translate-train-sw' | 3.622 |
'translate-train-te' | 3.658 |
'validation' | 5.077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- Özellik yapısı :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
Yanıtlar | Sekans | |||
cevaplar/cevap_başlangıç | tensör | int32 | ||
cevaplar/metin | Metin | sicim | ||
bağlam | Metin | sicim | ||
İD | tensör | sicim | ||
soru | Metin | sicim | ||
Başlık | Metin | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}