- Descrizione :
Wikipedia - Concorso Kaggle corrispondente a immagine/didascalia.
Questo concorso è organizzato dal team di ricerca della Wikimedia Foundation in collaborazione con Google Research e alcuni collaboratori esterni. Questo concorso si basa sul set di dati WIT pubblicato da Google Research come dettagliato in questo documento SIGIR .
In questa competizione, costruirai un modello che recupera automaticamente il testo più vicino a un'immagine. Nello specifico, addestrerai il tuo modello per associare determinate immagini a titoli di articoli o didascalie complesse, in più lingue. I migliori modelli terranno conto della granularità semantica delle immagini di Wikipedia. In caso di successo, contribuirai all'accessibilità della più grande enciclopedia online. I milioni di lettori ed editori di Wikipedia saranno in grado di comprendere, cercare e descrivere più facilmente i media su larga scala. Di conseguenza, contribuirai a un modello aperto per migliorare l'apprendimento per tutti.
Pagina iniziale : https://www.kaggle.com/c/wikipedia-image-caption/code
Codice sorgente :
tfds.vision_language.wit_kaggle.WitKaggle
Versioni :
1.0.0
: Versione iniziale. Fornisce il treno e i set di dati di prova dalla competizione Kaggle di Wikipedia - Image/Caption Matching ( https://www.kaggle.com/c/wikipedia-image-caption/data ).L'obiettivo del concorso è costruire un modello che recuperi automaticamente il testo più vicino a un'immagine. In particolare, il modello dovrebbe essere addestrato per associare determinate immagini a titoli di articoli o didascalie complesse, in più lingue. I migliori modelli terranno conto della granularità semantica delle immagini di Wikipedia.
Si noti che questa versione non fornisce la verità di base per il set di test, poiché non è stata ancora fornita dalla competizione Kaggle.
Si noti che non tutte le osservazioni di addestramento hanno dati immagine corrispondenti. Le immagini rilasciate escludono tutte le immagini che contengono esseri umani. Per i campioni che non sono associati ai dati dell'immagine, vengono utilizzate le seguenti caratteristiche dell'immagine:
image
è un'immagine vuota codificata byte-64, l'embedding
è un vettore di 2048 zeri.I campioni rilasciati per la competizione possono essere caricati come:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: Ottimizza la pipeline Beam per evitare problemi, ignorando le righe senza un URL immagine. Aggiunti anche altri segnalini Raggio.1.0.2
(impostazione predefinita): corregge l'analisi dei campi booleani.
Dimensioni del download :
Unknown size
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir
(il valore predefinito~/tensorflow_datasets/downloads/manual/
):
A seconda della configurazione richiamata, manual_dir dovrebbe contenere alcune delle seguenti sottodirectory:- treno
- treno-{0000x}-di-00005.tsv.zip
- image_data_treno/
- pixel_immagine/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- test
- test.tsv.zip
- image_data_test/
- pixel_immagine/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
La registrazione su https://www.kaggle.com/c/wikipedia-image-caption/data è necessaria per ottenere i collegamenti per scaricare il set di dati.
Cache automatica ( documentazione ): No
Chiavi supervisionate (vedi
as_supervised
doc ):('image_url', 'caption_title_and_reference_description')
Citazione :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (configurazione predefinita)
Descrizione della configurazione : esempi di formazione per il concorso Wikipedia-Image/Caption Matching.
Dimensione del set di dati:
1.16 TiB
Divisioni :
Diviso | Esempi |
---|---|
'train_with_extended_features' | 37.046.386 |
- Struttura delle caratteristiche :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
attribution_passes_lang_id | Tensore | bool | ||
caption_alt_text_description | Testo | corda | ||
caption_attribution_description | Testo | corda | ||
caption_reference_description | Testo | corda | ||
caption_title_and_reference_description | Testo | corda | ||
descrizione_pagina_di_contesto | Testo | corda | ||
descrizione_sezione_contesto | Testo | corda | ||
incorporamento | Tensore | (2048,) | galleggiante32 | |
hierarchical_section_title | Testo | corda | ||
Immagine | Immagine | (Nessuno, Nessuno, 3) | uint8 | |
URL dell'immagine | Testo | corda | ||
è_immagine_principale | Tensore | bool | ||
linguaggio | Testo | corda | ||
URL_metadati | Testo | corda | ||
tipo_mimo | Testo | corda | ||
altezza_originale | Tensore | int32 | ||
original_width | Tensore | int32 | ||
page_changed_recently | Tensore | bool | ||
titolo della pagina | Testo | corda | ||
page_url | Testo | corda | ||
titolo_sezione | Testo | corda |
- Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):
wit_kaggle/test_senza_oro
Descrizione della configurazione : campioni di prova (senza risposte gold) per il concorso Wikipedia-Image/Caption Matching.
Dimensione del set di dati:
3.37 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test_without_gold' | 92.366 |
- Struttura delle caratteristiche :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
caption_title_and_reference_description | Testo | corda | ||
incorporamento | Tensore | (2048,) | galleggiante32 | |
id | Testo | corda | ||
Immagine | Immagine | (Nessuno, Nessuno, 3) | uint8 | |
URL dell'immagine | Testo | corda | ||
URL_metadati | Testo | corda |
- Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):