- Descriptif :
Le jeu de données Image Text (WIT) basé sur Wikipédia est un grand jeu de données multilingue multimodal. WIT est composé d'un ensemble organisé de 37,6 millions d'exemples d'images-textes riches en entités avec 11,5 millions d'images uniques dans 108 langues Wikipédia. Sa taille permet à WIT d'être utilisé comme ensemble de données de pré-apprentissage pour les modèles d'apprentissage automatique multimodaux.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/google-research-datasets/wit/
Code source :
tfds.vision_language.wit.Wit
Versions :
-
1.0.0
: Version initiale. Il charge l'ensemble de données WIT à partir de https://storage.googleapis.com/gresearch/wit/ -
1.1.0
(par défaut) :val
ettest
fractionnés ajoutés.
-
Taille du téléchargement :
25.20 GiB
Taille du jeu de données :
81.17 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 210 166 |
'train' | 37 046 386 |
'val' | 261 024 |
- Structure des fonctionnalités :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
attribution_passes_lang_id | Tenseur | bourdonner | ||
caption_alt_text_description | Texte | chaîne de caractères | ||
caption_attribution_description | Texte | chaîne de caractères | ||
légende_reference_description | Texte | chaîne de caractères | ||
context_page_description | Texte | chaîne de caractères | ||
context_section_description | Texte | chaîne de caractères | ||
titre_section_hiérarchique | Texte | chaîne de caractères | ||
URL de l'image | Texte | chaîne de caractères | ||
est_main_image | Tenseur | bourdonner | ||
Langue | Texte | chaîne de caractères | ||
type_mime | Texte | chaîne de caractères | ||
hauteur_d'origine | Tenseur | int32 | ||
largeur_originale | Tenseur | int32 | ||
page_changed_recently | Tenseur | bourdonner | ||
titre de la page | Texte | chaîne de caractères | ||
L'URL de la page | Texte | chaîne de caractères | ||
section titre | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}