- Descriptif :
Texte de nettoyage pour plus de 40 langues Wikipédia, les éditions de pages correspondent à des entités. Les ensembles de données sont répartis train/développement/test par langue. L'ensemble de données est nettoyé par filtrage de pages pour supprimer les pages de désambiguïsation, les pages de redirection, les pages supprimées et les pages non-entités. Chaque exemple contient l'identifiant wikidata de l'entité et l'article Wikipédia complet après le traitement de la page qui supprime les sections sans contenu et les objets structurés. Les modèles linguistiques formés sur ce corpus - dont 41 modèles monolingues et 2 modèles multilingues - sont disponibles sur https://tfhub.dev/google/collections/wiki40b-lm/1
Documentation supplémentaire : Explorer sur les articles avec le code
Page d'accueil : https://research.google/pubs/pub49029/
Code source :
tfds.text.Wiki40b
Versions :
-
1.3.0
(par défaut) : Aucune note de version.
-
Taille du téléchargement :
Unknown size
Structure des fonctionnalités :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
texte | Texte | chaîne | ||
version_id | Texte | chaîne | ||
wikidata_id | Texte | chaîne |
Clés supervisées (Voir doc
as_supervised
) :None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (configuration par défaut)
Description de la configuration : Ensemble de données Wiki40B pour en.
Taille de l'ensemble de données :
9.91 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 162 274 |
'train' | 2 926 536 |
'validation' | 163 597 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/ar
Description de la configuration : ensemble de données Wiki40B pour ar.
Taille de l'ensemble de données :
833.20 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 12 271 |
'train' | 220 885 |
'validation' | 12 198 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/zh-cn
Description de la configuration : ensemble de données Wiki40B pour zh-cn.
Taille de l'ensemble de données :
985.53 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 30 355 |
'train' | 549 672 |
'validation' | 30 299 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/zh-tw
Description de la configuration : ensemble de données Wiki40B pour zh-tw.
Taille de l'ensemble de données :
986.45 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 30 670 |
'train' | 552 031 |
'validation' | 30 739 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/nl
Description de la configuration : ensemble de données Wiki40B pour nl.
Taille de l'ensemble de données :
961.82 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 24 776 |
'train' | 447 555 |
'validation' | 25 201 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/fr
Description de la config : Jeu de données Wiki40B pour fr.
Taille de l'ensemble de données :
3.37 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 68 004 |
'train' | 1 227 206 |
'validation' | 68 655 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/de
Description de la configuration : ensemble de données Wiki40B pour de.
Taille de l'ensemble de données :
4.78 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 86 594 |
'train' | 1 554 910 |
'validation' | 86 068 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/it
Description de la configuration : ensemble de données Wiki40B pour celui-ci.
Taille du jeu de données :
2.00 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 40 443 |
'train' | 732 609 |
'validation' | 40 684 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/ja
Description de la configuration : ensemble de données Wiki40B pour ja.
Taille du jeu de données :
2.19 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 41 268 |
'train' | 745 392 |
'validation' | 41 576 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/ko
Description de la configuration : Ensemble de données Wiki40B pour ko.
Taille de l'ensemble de données :
453.98 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 10 802 |
'train' | 194 977 |
'validation' | 10 805 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/pl
Description de la configuration : Ensemble de données Wiki40B pour pl.
Taille du jeu de données :
1.03 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 27 987 |
'train' | 505 191 |
'validation' | 28 310 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/pt
Description de la configuration : ensemble de données Wiki40B pour pt.
Taille du jeu de données :
1.08 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 22 693 |
'train' | 406 507 |
'validation' | 22 301 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/ru
Description de la configuration : ensemble de données Wiki40B pour ru.
Taille de l'ensemble de données :
4.13 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 51 885 |
'train' | 926 037 |
'validation' | 51 287 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/es
Description de la configuration : ensemble de données Wiki40B pour es.
Taille du jeu de données :
2.70 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 48 764 |
'train' | 872 541 |
'validation' | 48 592 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/th
Description de la config : Ensemble de données Wiki40B pour th.
Taille de l'ensemble de données :
326.29 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 3 114 |
'train' | 56 798 |
'validation' | 3 093 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/tr
Description de la configuration : ensemble de données Wiki40B pour tr.
Taille de l'ensemble de données :
308.87 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 7 890 |
'train' | 142 576 |
'validation' | 7 845 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/bg
Description de la configuration : ensemble de données Wiki40B pour bg.
Taille de l'ensemble de données :
433.20 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 7 289 |
'train' | 130 670 |
'validation' | 7 259 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/ca
Description de la configuration : ensemble de données Wiki40B pour env.
Taille de l'ensemble de données :
753.00 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 15 568 |
'train' | 277 313 |
'validation' | 15 362 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/cs
Description de la configuration : ensemble de données Wiki40B pour cs.
Taille de l'ensemble de données :
631.84 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 12 984 |
'train' | 235 971 |
'validation' | 13 096 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/da
Description de la configuration : ensemble de données Wiki40B pour da.
Taille de l'ensemble de données :
240.51 MiB
Mise en cache automatique ( documentation ) : Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Divisions :
Diviser | Exemples |
---|---|
'test' | 6 219 |
'train' | 109 486 |
'validation' | 6 173 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/el
Description de la configuration : Ensemble de données Wiki40B pour el.
Taille de l'ensemble de données :
524.77 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 5 261 |
'train' | 93 596 |
'validation' | 5 130 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/et
Description de la configuration : ensemble de données Wiki40B pour et.
Taille de l'ensemble de données :
184.07 MiB
Mise en cache automatique ( documentation ) : Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Divisions :
Diviser | Exemples |
---|---|
'test' | 6 205 |
'train' | 114 464 |
'validation' | 6 351 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/fa
Description de la configuration : Ensemble de données Wiki40B pour fa.
Taille de l'ensemble de données :
482.55 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 11 262 |
'train' | 203 145 |
'validation' | 11 180 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/fi
Description de la configuration : ensemble de données Wiki40B pour fi.
Taille de l'ensemble de données :
534.13 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 14 179 |
'train' | 255 822 |
'validation' | 13 962 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/il
Description de la configuration : ensemble de données Wiki40B pour lui.
Taille de l'ensemble de données :
869.51 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 9 344 |
'train' | 165 359 |
'validation' | 9 231 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/salut
Description de la configuration : Ensemble de données Wiki40B pour hi.
Taille de l'ensemble de données :
277.56 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 2 643 |
'train' | 45 737 |
'validation' | 2 596 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/h
Description de la configuration : ensemble de données Wiki40B pour hr.
Taille de l'ensemble de données :
235.58 MiB
Mise en cache automatique ( documentation ) : Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Divisions :
Diviser | Exemples |
---|---|
'test' | 5 724 |
'train' | 103 857 |
'validation' | 5 792 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/hu
Description de la configuration : Ensemble de données Wiki40B pour hu.
Taille de l'ensemble de données :
634.25 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 15 258 |
'train' | 273 248 |
'validation' | 15 208 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/id
Description de la configuration : ensemble de données Wiki40B pour l'identifiant.
Taille de l'ensemble de données :
334.06 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 8 598 |
'train' | 156 255 |
'validation' | 8 714 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/lt
Description de la configuration : Ensemble de données Wiki40B pour lt.
Taille de l'ensemble de données :
140.46 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :
Diviser | Exemples |
---|---|
'test' | 4 683 |
'train' | 84 854 |
'validation' | 4 754 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/lv
Description de la configuration : ensemble de données Wiki40B pour le lv.
Taille de l'ensemble de données :
80.07 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :
Diviser | Exemples |
---|---|
'test' | 1 932 |
'train' | 33 064 |
'validation' | 1 857 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/ms
Description de la configuration : ensemble de données Wiki40B pour ms.
Taille de l'ensemble de données :
142.49 MiB
Mise en cache automatique ( documentation ) : Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Divisions :
Diviser | Exemples |
---|---|
'test' | 5 235 |
'train' | 97 509 |
'validation' | 5 357 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/non
Description de la configuration : ensemble de données Wiki40B pour le no.
Taille de l'ensemble de données :
382.03 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 10 588 |
'train' | 190 588 |
'validation' | 10 547 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/ro
Description de la configuration : ensemble de données Wiki40B pour ro.
Taille de l'ensemble de données :
319.68 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 7 870 |
'train' | 139 615 |
'validation' | 7 624 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/sk
Description de la configuration : ensemble de données Wiki40B pour sk.
Taille de l'ensemble de données :
170.20 MiB
Mise en cache automatique ( documentation ) : Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Divisions :
Diviser | Exemples |
---|---|
'test' | 5 741 |
'train' | 103 095 |
'validation' | 5 604 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/sl
Description de la configuration : ensemble de données Wiki40B pour sl.
Taille de l'ensemble de données :
157.38 MiB
Mise en cache automatique ( documentation ) : Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Divisions :
Diviser | Exemples |
---|---|
'test' | 3 341 |
'train' | 60 927 |
'validation' | 3 287 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/sr
Description de la configuration : ensemble de données Wiki40B pour sr.
Taille de l'ensemble de données :
582.20 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 17 997 |
'train' | 327 313 |
'validation' | 18 100 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/sv
Description de la configuration : ensemble de données Wiki40B pour sv.
Taille de l'ensemble de données :
613.62 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 22 291 |
'train' | 400 742 |
'validation' | 22 263 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/tl
Description de la configuration : ensemble de données Wiki40B pour tl.
Taille de l'ensemble de données :
29.04 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :
Diviser | Exemples |
---|---|
'test' | 1 446 |
'train' | 25 940 |
'validation' | 1 472 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/fr
Description de la configuration : ensemble de données Wiki40B pour le Royaume-Uni.
Taille du jeu de données :
1.67 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 26 581 |
'train' | 477 618 |
'validation' | 26 324 |
- Exemples ( tfds.as_dataframe ) :
wiki40b/vi
Description de la configuration : ensemble de données Wiki40B pour vi.
Taille de l'ensemble de données :
497.70 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 7 942 |
'train' | 146 255 |
'validation' | 8 195 |
- Exemples ( tfds.as_dataframe ) :