ingenio

  • Descripción :

El conjunto de datos de texto de imagen (WIT) basado en Wikipedia es un gran conjunto de datos multilingüe multimodal. WIT se compone de un conjunto seleccionado de 37,6 millones de ejemplos de texto de imágenes ricos en entidades con 11,5 millones de imágenes únicas en 108 idiomas de Wikipedia. Su tamaño permite que WIT se use como un conjunto de datos de preentrenamiento para modelos de aprendizaje automático multimodal.

Separar Ejemplos
'test' 210,166
'train' 37,046,386
'val' 261,024
  • Estructura de características :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
attribution_passes_lang_id Tensor bool
caption_alt_text_descripción Texto cuerda
caption_attribution_description Texto cuerda
caption_reference_description Texto cuerda
descripción_página_contexto Texto cuerda
contexto_sección_descripción Texto cuerda
título_de_la_sección_jerárquica Texto cuerda
URL de la imagen Texto cuerda
es_imagen_principal Tensor bool
idioma Texto cuerda
tipo de Mimica Texto cuerda
altura_original Tensor int32
ancho_original Tensor int32
página_cambiada_recientemente Tensor bool
Título de la página Texto cuerda
URL de la página Texto cuerda
sección de título Texto cuerda
  • Cita :
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}