wiki40b

  • Açıklama :

Varlıklara karşılık gelen sayfaların 40'tan fazla Vikipedi dili sürümü için temizleme metni. Veri kümelerinde dil başına eğitim/geliştirme/test bölümleri bulunur. Veri kümesi, belirsizliği giderme sayfalarını, yönlendirme sayfalarını, silinmiş sayfaları ve varlık olmayan sayfaları kaldırmak için sayfa filtreleme yoluyla temizlenir. Her örnek, varlığın wikidata kimliğini ve içerik dışı bölümleri ve yapılandırılmış nesneleri kaldıran sayfa işleme sonrasında tam Vikipedi makalesini içerir. Bu derlemede eğitilen dil modelleri (41 tek dilli model ve 2 çok dilli model dahil) https://tfhub.dev/google/collections/wiki40b-lm/1 adresinde bulunabilir.

FeaturesDict({
    'text': Text(shape=(), dtype=string),
    'version_id': Text(shape=(), dtype=string),
    'wikidata_id': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
metin Metin sicim
version_id Metin sicim
wikidata_id Metin sicim
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/en (varsayılan yapılandırma)

  • Yapılandırma açıklaması : en için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 9.91 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 162.274
'train' 2.926.536
'validation' 163.597

wiki40b/ar

  • Yapılandırma açıklaması : ar için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 833.20 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 12.271
'train' 220.885
'validation' 12.198

wiki40b/zh-cn

  • Yapılandırma açıklaması : zh-cn için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 985.53 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 30.355
'train' 549.672
'validation' 30.299

wiki40b/zh-tw

  • Yapılandırma açıklaması : zh-tw için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 986.45 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 30.670
'train' 552.031
'validation' 30.739

wiki40b/nl

  • Yapılandırma açıklaması : nl için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 961.82 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 24.776
'train' 447.555
'validation' 25.201

wiki40b/fr

  • Yapılandırma açıklaması : fr için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 3.37 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 68.004
'train' 1.227.206
'validation' 68.655

wiki40b/de

  • Yapılandırma açıklaması : de için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 4.78 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 86.594
'train' 1.554.910
'validation' 86.068

wiki40b/it

  • Yapılandırma açıklaması : Bunun için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 2.00 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 40.443
'train' 732.609
'validation' 40.684

wiki40b/ja

  • Yapılandırma açıklaması : ja için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 2.19 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 41.268
'train' 745.392
'validation' 41.576

wiki40b/ko

  • Yapılandırma açıklaması : ko için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 453.98 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 10.802
'train' 194.977
'validation' 10.805

wiki40b/pl

  • Yapılandırma açıklaması : pl için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 1.03 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 27.987
'train' 505.191
'validation' 28.310

wiki40b/pt

  • Yapılandırma açıklaması : pt için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 1.08 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 22.693
'train' 406.507
'validation' 22.301

wiki40b/ru

  • Yapılandırma açıklaması : ru için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 4.13 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 51.885
'train' 926.037
'validation' 51.287

wiki40b/es

  • Yapılandırma açıklaması : es için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 2.70 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 48.764
'train' 872.541
'validation' 48.592

wiki40b/th

  • Yapılandırma açıklaması : th için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 326.29 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 3.114
'train' 56.798
'validation' 3.093

wiki40b/tr

  • Yapılandırma açıklaması : tr için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 308.87 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 7.890
'train' 142.576
'validation' 7.845

wiki40b/bg

  • Yapılandırma açıklaması : bg için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 433.20 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 7.289
'train' 130.670
'validation' 7.259

wiki40b/ca

  • Yapılandırma açıklaması : Yaklaşık Wiki40B veri kümesi.

  • Veri kümesi boyutu : 753.00 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 15.568
'train' 277.313
'validation' 15.362

wiki40b/cs

  • Yapılandırma açıklaması : CS için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 631.84 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 12.984
'train' 235.971
'validation' 13.096

wiki40b/da

  • Yapılandırma açıklaması : da için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 240.51 MiB

  • Otomatik önbelleğe alınmış ( dokümantasyon ): Evet (test, doğrulama), Yalnızca shuffle_files=False (tren) olduğunda

  • Bölünmeler :

Bölmek Örnekler
'test' 6.219
'train' 109.486
'validation' 6.173

wiki40b/el

  • Yapılandırma açıklaması : el için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 524.77 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 5.261
'train' 93.596
'validation' 5.130

wiki40b/et

  • Yapılandırma açıklaması : et için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 184.07 MiB

  • Otomatik önbelleğe alınmış ( dokümantasyon ): Evet (test, doğrulama), Yalnızca shuffle_files=False (tren) olduğunda

  • Bölünmeler :

Bölmek Örnekler
'test' 6.205
'train' 114.464
'validation' 6.351

wiki40b/fa

  • Yapılandırma açıklaması : fa için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 482.55 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 11.262
'train' 203.145
'validation' 11.180

wiki40b/fi

  • Yapılandırma açıklaması : fi için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 534.13 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 14.179
'train' 255.822
'validation' 13.962

wiki40b/o

  • Yapılandırma açıklaması : he için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 869.51 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 9.344
'train' 165.359
'validation' 9.231

wiki40b/merhaba

  • Yapılandırma açıklaması : hi için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 277.56 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 2.643
'train' 45.737
'validation' 2.596

wiki40b/saat

  • Yapılandırma açıklaması : Saat için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 235.58 MiB

  • Otomatik önbelleğe alınmış ( dokümantasyon ): Evet (test, doğrulama), Yalnızca shuffle_files=False (tren) olduğunda

  • Bölünmeler :

Bölmek Örnekler
'test' 5.724
'train' 103.857
'validation' 5.792

wiki40b/hu

  • Yapılandırma açıklaması : hu için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 634.25 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 15.258
'train' 273.248
'validation' 15.208

wiki40b/id

  • Yapılandırma açıklaması : Kimlik için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 334.06 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 8.598
'train' 156.255
'validation' 8.714

wiki40b/lt

  • Yapılandırma açıklaması : lt. için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 140.46 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet

  • Bölünmeler :

Bölmek Örnekler
'test' 4.683
'train' 84.854
'validation' 4.754

wiki40b/lv

  • Yapılandırma açıklaması : lv için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 80.07 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet

  • Bölünmeler :

Bölmek Örnekler
'test' 1.932
'train' 33.064
'validation' 1.857

wiki40b/ms

  • Yapılandırma açıklaması : MS için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 142.49 MiB

  • Otomatik önbelleğe alınmış ( dokümantasyon ): Evet (test, doğrulama), Yalnızca shuffle_files=False (tren) olduğunda

  • Bölünmeler :

Bölmek Örnekler
'test' 5.235
'train' 97.509
'validation' 5.357

wiki40b/hayır

  • Yapılandırma açıklaması : Hayır için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 382.03 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 10.588
'train' 190.588
'validation' 10.547

wiki40b/ro

  • Yapılandırma açıklaması : ro için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 319.68 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 7.870
'train' 139.615
'validation' 7.624

wiki40b/sk

  • Yapılandırma açıklaması : sk için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 170.20 MiB

  • Otomatik önbelleğe alınmış ( dokümantasyon ): Evet (test, doğrulama), Yalnızca shuffle_files=False (tren) olduğunda

  • Bölünmeler :

Bölmek Örnekler
'test' 5.741
'train' 103.095
'validation' 5.604

wiki40b/sl

  • Yapılandırma açıklaması : sl için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 157.38 MiB

  • Otomatik önbelleğe alınmış ( dokümantasyon ): Evet (test, doğrulama), Yalnızca shuffle_files=False (tren) olduğunda

  • Bölünmeler :

Bölmek Örnekler
'test' 3.341
'train' 60.927
'validation' 3.287

wiki40b/sr

  • Yapılandırma açıklaması : sr için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 582.20 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 17.997
'train' 327.313
'validation' 18.100

wiki40b/sv

  • Yapılandırma açıklaması : sv için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 613.62 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 22.291
'train' 400.742
'validation' 22.263

wiki40b/tl

  • Yapılandırma açıklaması : tl için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 29.04 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet

  • Bölünmeler :

Bölmek Örnekler
'test' 1.446
'train' 25.940
'validation' 1.472

wiki40b/İngiltere

  • Yapılandırma açıklaması : Birleşik Krallık için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 1.67 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 26.581
'train' 477.618
'validation' 26.324

wiki40b/vi

  • Yapılandırma açıklaması : vi için Wiki40B veri kümesi.

  • Veri kümesi boyutu : 497.70 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölünmeler :

Bölmek Örnekler
'test' 7.942
'train' 146.255
'validation' 8.195