- Descrizione :
Il set di dati WIT (Image Text) basato su Wikipedia è un grande set di dati multilingue multimodale. WIT è composto da un set curato di 37,6 milioni di esempi di immagini-testo ricchi di entità con 11,5 milioni di immagini uniche in 108 lingue di Wikipedia. Le sue dimensioni consentono a WIT di essere utilizzato come set di dati di pre-addestramento per modelli di machine learning multimodali.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/google-research-datasets/wit/
Codice sorgente :
tfds.vision_language.wit.Wit
Versioni :
-
1.0.0
: Versione iniziale. Carica il set di dati WIT da https://storage.googleapis.com/gresearch/wit/ -
1.1.0
(predefinito): aggiuntival
etest
split.
-
Dimensione del download :
25.20 GiB
Dimensione del set di dati:
81.17 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 210.166 |
'train' | 37.046.386 |
'val' | 261.024 |
- Struttura delle caratteristiche :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
attribution_passes_lang_id | Tensore | bool | ||
caption_alt_text_description | Testo | corda | ||
caption_attribution_description | Testo | corda | ||
caption_reference_description | Testo | corda | ||
descrizione_pagina_di_contesto | Testo | corda | ||
descrizione_sezione_contesto | Testo | corda | ||
hierarchical_section_title | Testo | corda | ||
URL dell'immagine | Testo | corda | ||
è_immagine_principale | Tensore | bool | ||
linguaggio | Testo | corda | ||
tipo_mimo | Testo | corda | ||
altezza_originale | Tensore | int32 | ||
original_width | Tensore | int32 | ||
page_changed_recently | Tensore | bool | ||
titolo della pagina | Testo | corda | ||
page_url | Testo | corda | ||
titolo_sezione | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}