esprit

  • Descriptif :

Le jeu de données Image Text (WIT) basé sur Wikipédia est un grand jeu de données multilingue multimodal. WIT est composé d'un ensemble organisé de 37,6 millions d'exemples d'images-textes riches en entités avec 11,5 millions d'images uniques dans 108 langues Wikipédia. Sa taille permet à WIT d'être utilisé comme ensemble de données de pré-apprentissage pour les modèles d'apprentissage automatique multimodaux.

Diviser Exemples
'test' 210 166
'train' 37 046 386
'val' 261 024
  • Structure des fonctionnalités :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
attribution_passes_lang_id Tenseur bourdonner
caption_alt_text_description Texte chaîne de caractères
caption_attribution_description Texte chaîne de caractères
légende_reference_description Texte chaîne de caractères
context_page_description Texte chaîne de caractères
context_section_description Texte chaîne de caractères
titre_section_hiérarchique Texte chaîne de caractères
URL de l'image Texte chaîne de caractères
est_main_image Tenseur bourdonner
Langue Texte chaîne de caractères
type_mime Texte chaîne de caractères
hauteur_d'origine Tenseur int32
largeur_originale Tenseur int32
page_changed_recently Tenseur bourdonner
titre de la page Texte chaîne de caractères
L'URL de la page Texte chaîne de caractères
section titre Texte chaîne de caractères
  • Citation :
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}