- Açıklama :
Varlıklara karşılık gelen sayfaların 40'tan fazla Vikipedi dili sürümü için temizleme metni. Veri kümelerinde dil başına eğitim/geliştirme/test bölümleri bulunur. Veri kümesi, belirsizliği giderme sayfalarını, yönlendirme sayfalarını, silinmiş sayfaları ve varlık olmayan sayfaları kaldırmak için sayfa filtreleme yoluyla temizlenir. Her örnek, varlığın wikidata kimliğini ve içerik dışı bölümleri ve yapılandırılmış nesneleri kaldıran sayfa işleme sonrasında tam Vikipedi makalesini içerir. Bu derlemede eğitilen dil modelleri (41 tek dilli model ve 2 çok dilli model dahil) https://tfhub.dev/google/collections/wiki40b-lm/1 adresinde bulunabilir.
Ana sayfa : https://research.google/pubs/pub49029/
Kaynak kodu :
tfds.text.Wiki40b
Sürümler :
-
1.3.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
Unknown size
Özellik yapısı :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
metin | Metin | sicim | ||
version_id | Metin | sicim | ||
wikidata_id | Metin | sicim |
Denetlenen anahtarlar (
as_supervised
belgesine bakın):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (varsayılan yapılandırma)
Yapılandırma açıklaması : en için Wiki40B veri kümesi.
Veri kümesi boyutu :
9.91 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 162.274 |
'train' | 2.926.536 |
'validation' | 163.597 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/ar
Yapılandırma açıklaması : ar için Wiki40B veri kümesi.
Veri kümesi boyutu :
833.20 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 12.271 |
'train' | 220.885 |
'validation' | 12.198 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/zh-cn
Yapılandırma açıklaması : zh-cn için Wiki40B veri kümesi.
Veri kümesi boyutu :
985.53 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 30.355 |
'train' | 549.672 |
'validation' | 30.299 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/zh-tw
Yapılandırma açıklaması : zh-tw için Wiki40B veri kümesi.
Veri kümesi boyutu :
986.45 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 30.670 |
'train' | 552.031 |
'validation' | 30.739 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/nl
Yapılandırma açıklaması : nl için Wiki40B veri kümesi.
Veri kümesi boyutu :
961.82 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 24.776 |
'train' | 447.555 |
'validation' | 25.201 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/fr
Yapılandırma açıklaması : fr için Wiki40B veri kümesi.
Veri kümesi boyutu :
3.37 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 68.004 |
'train' | 1.227.206 |
'validation' | 68.655 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/de
Yapılandırma açıklaması : de için Wiki40B veri kümesi.
Veri kümesi boyutu :
4.78 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 86.594 |
'train' | 1.554.910 |
'validation' | 86.068 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/it
Yapılandırma açıklaması : Bunun için Wiki40B veri kümesi.
Veri kümesi boyutu :
2.00 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 40.443 |
'train' | 732.609 |
'validation' | 40.684 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/ja
Yapılandırma açıklaması : ja için Wiki40B veri kümesi.
Veri kümesi boyutu :
2.19 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 41.268 |
'train' | 745.392 |
'validation' | 41.576 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/ko
Yapılandırma açıklaması : ko için Wiki40B veri kümesi.
Veri kümesi boyutu :
453.98 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 10.802 |
'train' | 194.977 |
'validation' | 10.805 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/pl
Yapılandırma açıklaması : pl için Wiki40B veri kümesi.
Veri kümesi boyutu :
1.03 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 27.987 |
'train' | 505.191 |
'validation' | 28.310 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/pt
Yapılandırma açıklaması : pt için Wiki40B veri kümesi.
Veri kümesi boyutu :
1.08 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 22.693 |
'train' | 406.507 |
'validation' | 22.301 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/ru
Yapılandırma açıklaması : ru için Wiki40B veri kümesi.
Veri kümesi boyutu :
4.13 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 51.885 |
'train' | 926.037 |
'validation' | 51.287 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/es
Yapılandırma açıklaması : es için Wiki40B veri kümesi.
Veri kümesi boyutu :
2.70 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 48.764 |
'train' | 872.541 |
'validation' | 48.592 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/th
Yapılandırma açıklaması : th için Wiki40B veri kümesi.
Veri kümesi boyutu :
326.29 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 3.114 |
'train' | 56.798 |
'validation' | 3.093 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/tr
Yapılandırma açıklaması : tr için Wiki40B veri kümesi.
Veri kümesi boyutu :
308.87 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 7.890 |
'train' | 142.576 |
'validation' | 7.845 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/bg
Yapılandırma açıklaması : bg için Wiki40B veri kümesi.
Veri kümesi boyutu :
433.20 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 7.289 |
'train' | 130.670 |
'validation' | 7.259 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/ca
Yapılandırma açıklaması : Yaklaşık Wiki40B veri kümesi.
Veri kümesi boyutu :
753.00 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 15.568 |
'train' | 277.313 |
'validation' | 15.362 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/cs
Yapılandırma açıklaması : CS için Wiki40B veri kümesi.
Veri kümesi boyutu :
631.84 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 12.984 |
'train' | 235.971 |
'validation' | 13.096 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/da
Yapılandırma açıklaması : da için Wiki40B veri kümesi.
Veri kümesi boyutu :
240.51 MiB
Otomatik önbelleğe alınmış ( dokümantasyon ): Evet (test, doğrulama), Yalnızca
shuffle_files=False
(tren) olduğundaBölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 6.219 |
'train' | 109.486 |
'validation' | 6.173 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/el
Yapılandırma açıklaması : el için Wiki40B veri kümesi.
Veri kümesi boyutu :
524.77 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 5.261 |
'train' | 93.596 |
'validation' | 5.130 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/et
Yapılandırma açıklaması : et için Wiki40B veri kümesi.
Veri kümesi boyutu :
184.07 MiB
Otomatik önbelleğe alınmış ( dokümantasyon ): Evet (test, doğrulama), Yalnızca
shuffle_files=False
(tren) olduğundaBölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 6.205 |
'train' | 114.464 |
'validation' | 6.351 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/fa
Yapılandırma açıklaması : fa için Wiki40B veri kümesi.
Veri kümesi boyutu :
482.55 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 11.262 |
'train' | 203.145 |
'validation' | 11.180 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/fi
Yapılandırma açıklaması : fi için Wiki40B veri kümesi.
Veri kümesi boyutu :
534.13 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 14.179 |
'train' | 255.822 |
'validation' | 13.962 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/o
Yapılandırma açıklaması : he için Wiki40B veri kümesi.
Veri kümesi boyutu :
869.51 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 9.344 |
'train' | 165.359 |
'validation' | 9.231 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/merhaba
Yapılandırma açıklaması : hi için Wiki40B veri kümesi.
Veri kümesi boyutu :
277.56 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 2.643 |
'train' | 45.737 |
'validation' | 2.596 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/saat
Yapılandırma açıklaması : Saat için Wiki40B veri kümesi.
Veri kümesi boyutu :
235.58 MiB
Otomatik önbelleğe alınmış ( dokümantasyon ): Evet (test, doğrulama), Yalnızca
shuffle_files=False
(tren) olduğundaBölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 5.724 |
'train' | 103.857 |
'validation' | 5.792 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/hu
Yapılandırma açıklaması : hu için Wiki40B veri kümesi.
Veri kümesi boyutu :
634.25 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 15.258 |
'train' | 273.248 |
'validation' | 15.208 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/id
Yapılandırma açıklaması : Kimlik için Wiki40B veri kümesi.
Veri kümesi boyutu :
334.06 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 8.598 |
'train' | 156.255 |
'validation' | 8.714 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/lt
Yapılandırma açıklaması : lt. için Wiki40B veri kümesi.
Veri kümesi boyutu :
140.46 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 4.683 |
'train' | 84.854 |
'validation' | 4.754 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/lv
Yapılandırma açıklaması : lv için Wiki40B veri kümesi.
Veri kümesi boyutu :
80.07 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 1.932 |
'train' | 33.064 |
'validation' | 1.857 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/ms
Yapılandırma açıklaması : MS için Wiki40B veri kümesi.
Veri kümesi boyutu :
142.49 MiB
Otomatik önbelleğe alınmış ( dokümantasyon ): Evet (test, doğrulama), Yalnızca
shuffle_files=False
(tren) olduğundaBölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 5.235 |
'train' | 97.509 |
'validation' | 5.357 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/hayır
Yapılandırma açıklaması : Hayır için Wiki40B veri kümesi.
Veri kümesi boyutu :
382.03 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 10.588 |
'train' | 190.588 |
'validation' | 10.547 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/ro
Yapılandırma açıklaması : ro için Wiki40B veri kümesi.
Veri kümesi boyutu :
319.68 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 7.870 |
'train' | 139.615 |
'validation' | 7.624 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/sk
Yapılandırma açıklaması : sk için Wiki40B veri kümesi.
Veri kümesi boyutu :
170.20 MiB
Otomatik önbelleğe alınmış ( dokümantasyon ): Evet (test, doğrulama), Yalnızca
shuffle_files=False
(tren) olduğundaBölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 5.741 |
'train' | 103.095 |
'validation' | 5.604 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/sl
Yapılandırma açıklaması : sl için Wiki40B veri kümesi.
Veri kümesi boyutu :
157.38 MiB
Otomatik önbelleğe alınmış ( dokümantasyon ): Evet (test, doğrulama), Yalnızca
shuffle_files=False
(tren) olduğundaBölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 3.341 |
'train' | 60.927 |
'validation' | 3.287 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/sr
Yapılandırma açıklaması : sr için Wiki40B veri kümesi.
Veri kümesi boyutu :
582.20 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 17.997 |
'train' | 327.313 |
'validation' | 18.100 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/sv
Yapılandırma açıklaması : sv için Wiki40B veri kümesi.
Veri kümesi boyutu :
613.62 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 22.291 |
'train' | 400.742 |
'validation' | 22.263 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/tl
Yapılandırma açıklaması : tl için Wiki40B veri kümesi.
Veri kümesi boyutu :
29.04 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 1.446 |
'train' | 25.940 |
'validation' | 1.472 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/İngiltere
Yapılandırma açıklaması : Birleşik Krallık için Wiki40B veri kümesi.
Veri kümesi boyutu :
1.67 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 26.581 |
'train' | 477.618 |
'validation' | 26.324 |
- Örnekler ( tfds.as_dataframe ):
wiki40b/vi
Yapılandırma açıklaması : vi için Wiki40B veri kümesi.
Veri kümesi boyutu :
497.70 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :
Bölmek | Örnekler |
---|---|
'test' | 7.942 |
'train' | 146.255 |
'validation' | 8.195 |
- Örnekler ( tfds.as_dataframe ):