- Descripción :
El texto de limpieza para más de 40 ediciones de páginas en idiomas de Wikipedia corresponde a entidades. Los conjuntos de datos tienen divisiones de entrenamiento/desarrollo/prueba por idioma. El conjunto de datos se limpia mediante filtrado de páginas para eliminar páginas de desambiguación, páginas de redireccionamiento, páginas eliminadas y páginas sin entidad. Cada ejemplo contiene la identificación de wikidata de la entidad y el artículo completo de Wikipedia después del procesamiento de la página que elimina secciones sin contenido y objetos estructurados. Los modelos de lenguaje entrenados en este corpus, incluidos 41 modelos monolingües y 2 modelos multilingües, se pueden encontrar en https://tfhub.dev/google/collections/wiki40b-lm/1
Documentación adicional : Explorar en artículos con código
Página de inicio : https://research.google/pubs/pub49029/
Código fuente :
tfds.text.Wiki40b
Versiones :
-
1.3.0
(predeterminado): sin notas de la versión.
-
Tamaño de descarga :
Unknown size
Estructura de características :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
texto | Texto | cadena | ||
id_versión | Texto | cadena | ||
id_wikidata | Texto | cadena |
Claves supervisadas (ver documento
as_supervised
):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (configuración predeterminada)
Descripción de la configuración : conjunto de datos Wiki40B para en.
Tamaño del conjunto de datos :
9.91 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 162,274 |
'train' | 2.926.536 |
'validation' | 163.597 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/ar
Descripción de la configuración : conjunto de datos Wiki40B para ar.
Tamaño del conjunto de datos :
833.20 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 12.271 |
'train' | 220.885 |
'validation' | 12,198 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/zh-cn
Descripción de la configuración : conjunto de datos Wiki40B para zh-cn.
Tamaño del conjunto de datos :
985.53 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 30.355 |
'train' | 549,672 |
'validation' | 30.299 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/zh-tw
Descripción de la configuración : conjunto de datos Wiki40B para zh-tw.
Tamaño del conjunto de datos :
986.45 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 30.670 |
'train' | 552.031 |
'validation' | 30.739 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/nl
Descripción de la configuración : conjunto de datos Wiki40B para nl.
Tamaño del conjunto de datos :
961.82 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 24.776 |
'train' | 447,555 |
'validation' | 25.201 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/es
Descripción de la configuración : conjunto de datos Wiki40B para fr.
Tamaño del conjunto de datos :
3.37 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 68.004 |
'train' | 1.227.206 |
'validation' | 68.655 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/de
Descripción de la configuración : conjunto de datos Wiki40B para de.
Tamaño del conjunto de datos :
4.78 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 86.594 |
'train' | 1.554.910 |
'validation' | 86.068 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/es
Descripción de la configuración : conjunto de datos Wiki40B para ello.
Tamaño del conjunto de datos :
2.00 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 40.443 |
'train' | 732.609 |
'validation' | 40.684 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/ja
Descripción de la configuración : conjunto de datos Wiki40B para ja.
Tamaño del conjunto de datos :
2.19 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 41.268 |
'train' | 745,392 |
'validation' | 41.576 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/ko
Descripción de la configuración : conjunto de datos Wiki40B para ko.
Tamaño del conjunto de datos :
453.98 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 10.802 |
'train' | 194,977 |
'validation' | 10.805 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/pl
Descripción de la configuración : conjunto de datos Wiki40B para pl.
Tamaño del conjunto de datos :
1.03 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 27,987 |
'train' | 505,191 |
'validation' | 28.310 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/pt
Descripción de la configuración : conjunto de datos Wiki40B para pt.
Tamaño del conjunto de datos :
1.08 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 22.693 |
'train' | 406,507 |
'validation' | 22.301 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/ru
Descripción de la configuración : conjunto de datos Wiki40B para ru.
Tamaño del conjunto de datos :
4.13 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 51.885 |
'train' | 926.037 |
'validation' | 51.287 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/es
Descripción de la configuración : conjunto de datos Wiki40B para es.
Tamaño del conjunto de datos :
2.70 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 48.764 |
'train' | 872.541 |
'validation' | 48.592 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/th
Descripción de la configuración : conjunto de datos Wiki40B para th.
Tamaño del conjunto de datos :
326.29 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 3,114 |
'train' | 56.798 |
'validation' | 3.093 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/tr
Descripción de la configuración : conjunto de datos Wiki40B para tr.
Tamaño del conjunto de datos :
308.87 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 7.890 |
'train' | 142.576 |
'validation' | 7.845 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/bg
Descripción de la configuración : conjunto de datos Wiki40B para bg.
Tamaño del conjunto de datos :
433.20 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 7.289 |
'train' | 130.670 |
'validation' | 7.259 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/ca
Descripción de la configuración : conjunto de datos Wiki40B para ca.
Tamaño del conjunto de datos :
753.00 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 15.568 |
'train' | 277,313 |
'validation' | 15.362 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/cs
Descripción de la configuración : conjunto de datos Wiki40B para cs.
Tamaño del conjunto de datos :
631.84 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 12,984 |
'train' | 235.971 |
'validation' | 13.096 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/da
Descripción de la configuración : conjunto de datos Wiki40B para da.
Tamaño del conjunto de datos :
240.51 MiB
Almacenamiento en caché automático ( documentación ): Sí (prueba, validación), solo cuando
shuffle_files=False
(entrenamiento)Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 6.219 |
'train' | 109.486 |
'validation' | 6.173 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/el
Descripción de la configuración : conjunto de datos Wiki40B para el.
Tamaño del conjunto de datos :
524.77 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 5.261 |
'train' | 93.596 |
'validation' | 5.130 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/et
Descripción de la configuración : conjunto de datos Wiki40B para et.
Tamaño del conjunto de datos :
184.07 MiB
Almacenamiento en caché automático ( documentación ): Sí (prueba, validación), solo cuando
shuffle_files=False
(entrenamiento)Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 6.205 |
'train' | 114.464 |
'validation' | 6.351 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/fa
Descripción de la configuración : conjunto de datos Wiki40B para fa.
Tamaño del conjunto de datos :
482.55 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 11.262 |
'train' | 203,145 |
'validation' | 11.180 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/fi
Descripción de la configuración : conjunto de datos Wiki40B para fi.
Tamaño del conjunto de datos :
534.13 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 14.179 |
'train' | 255.822 |
'validation' | 13,962 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/él
Descripción de la configuración : conjunto de datos Wiki40B para él.
Tamaño del conjunto de datos :
869.51 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 9.344 |
'train' | 165.359 |
'validation' | 9.231 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/hola
Descripción de la configuración : conjunto de datos Wiki40B para hola.
Tamaño del conjunto de datos :
277.56 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 2.643 |
'train' | 45.737 |
'validation' | 2,596 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/hora
Descripción de la configuración : conjunto de datos Wiki40B para hr.
Tamaño del conjunto de datos :
235.58 MiB
Almacenamiento en caché automático ( documentación ): Sí (prueba, validación), solo cuando
shuffle_files=False
(entrenamiento)Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 5.724 |
'train' | 103.857 |
'validation' | 5.792 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/hu
Descripción de la configuración : conjunto de datos Wiki40B para hu.
Tamaño del conjunto de datos :
634.25 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 15.258 |
'train' | 273,248 |
'validation' | 15.208 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/id
Descripción de la configuración : conjunto de datos Wiki40B para id.
Tamaño del conjunto de datos :
334.06 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 8.598 |
'train' | 156.255 |
'validation' | 8.714 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/lt
Descripción de la configuración : conjunto de datos Wiki40B para lt.
Tamaño del conjunto de datos :
140.46 MiB
Almacenamiento en caché automático ( documentación ): Sí
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 4.683 |
'train' | 84.854 |
'validation' | 4.754 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/lv
Descripción de la configuración : conjunto de datos Wiki40B para lv.
Tamaño del conjunto de datos :
80.07 MiB
Almacenamiento en caché automático ( documentación ): Sí
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 1.932 |
'train' | 33.064 |
'validation' | 1.857 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/ms
Descripción de la configuración : conjunto de datos Wiki40B para ms.
Tamaño del conjunto de datos :
142.49 MiB
Almacenamiento en caché automático ( documentación ): Sí (prueba, validación), solo cuando
shuffle_files=False
(entrenamiento)Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 5.235 |
'train' | 97.509 |
'validation' | 5.357 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/no
Descripción de la configuración : conjunto de datos Wiki40B para el no.
Tamaño del conjunto de datos :
382.03 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 10.588 |
'train' | 190.588 |
'validation' | 10.547 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/ro
Descripción de la configuración : conjunto de datos Wiki40B para ro.
Tamaño del conjunto de datos :
319.68 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 7.870 |
'train' | 139.615 |
'validation' | 7.624 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/sk
Descripción de la configuración : conjunto de datos Wiki40B para sk.
Tamaño del conjunto de datos :
170.20 MiB
Almacenamiento en caché automático ( documentación ): Sí (prueba, validación), solo cuando
shuffle_files=False
(entrenamiento)Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 5.741 |
'train' | 103.095 |
'validation' | 5.604 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/sl
Descripción de la configuración : conjunto de datos Wiki40B para sl.
Tamaño del conjunto de datos :
157.38 MiB
Almacenamiento en caché automático ( documentación ): Sí (prueba, validación), solo cuando
shuffle_files=False
(entrenamiento)Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 3.341 |
'train' | 60.927 |
'validation' | 3.287 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/sr
Descripción de la configuración : conjunto de datos Wiki40B para sr.
Tamaño del conjunto de datos :
582.20 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 17,997 |
'train' | 327,313 |
'validation' | 18.100 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/sv
Descripción de la configuración : conjunto de datos Wiki40B para sv.
Tamaño del conjunto de datos :
613.62 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 22,291 |
'train' | 400,742 |
'validation' | 22,263 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/tl
Descripción de la configuración : conjunto de datos Wiki40B para tl.
Tamaño del conjunto de datos :
29.04 MiB
Almacenamiento en caché automático ( documentación ): Sí
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 1.446 |
'train' | 25.940 |
'validation' | 1.472 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/reino Unido
Descripción de la configuración : conjunto de datos Wiki40B para el Reino Unido.
Tamaño del conjunto de datos :
1.67 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 26.581 |
'train' | 477,618 |
'validation' | 26.324 |
- Ejemplos ( tfds.as_dataframe ):
wiki40b/vi
Descripción de la configuración : conjunto de datos Wiki40B para vi.
Tamaño del conjunto de datos :
497.70 MiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 7,942 |
'train' | 146.255 |
'validation' | 8.195 |
- Ejemplos ( tfds.as_dataframe ):