- Descripción :
El conjunto de datos de texto de imagen (WIT) basado en Wikipedia es un gran conjunto de datos multilingüe multimodal. WIT se compone de un conjunto seleccionado de 37,6 millones de ejemplos de texto de imágenes ricos en entidades con 11,5 millones de imágenes únicas en 108 idiomas de Wikipedia. Su tamaño permite que WIT se use como un conjunto de datos de preentrenamiento para modelos de aprendizaje automático multimodal.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/google-research-datasets/wit/
Código fuente :
tfds.vision_language.wit.Wit
Versiones :
-
1.0.0
: Versión inicial. Carga el conjunto de datos WIT desde https://storage.googleapis.com/gresearch/wit/ -
1.1.0
(predeterminado): valorval
y divisiones detest
.
-
Tamaño de descarga :
25.20 GiB
Tamaño del conjunto de datos :
81.17 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 210,166 |
'train' | 37,046,386 |
'val' | 261,024 |
- Estructura de características :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
attribution_passes_lang_id | Tensor | bool | ||
caption_alt_text_descripción | Texto | cuerda | ||
caption_attribution_description | Texto | cuerda | ||
caption_reference_description | Texto | cuerda | ||
descripción_página_contexto | Texto | cuerda | ||
contexto_sección_descripción | Texto | cuerda | ||
título_de_la_sección_jerárquica | Texto | cuerda | ||
URL de la imagen | Texto | cuerda | ||
es_imagen_principal | Tensor | bool | ||
idioma | Texto | cuerda | ||
tipo de Mimica | Texto | cuerda | ||
altura_original | Tensor | int32 | ||
ancho_original | Tensor | int32 | ||
página_cambiada_recientemente | Tensor | bool | ||
Título de la página | Texto | cuerda | ||
URL de la página | Texto | cuerda | ||
sección de título | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}