- Descrizione :
Il set di dati Google RefExp è una raccolta di descrizioni testuali di oggetti nelle immagini che si basa sul set di dati MS-COCO pubblicamente disponibile. Mentre le didascalie delle immagini in MS-COCO si applicano all'intera immagine, questo set di dati si concentra sulle descrizioni testuali che consentono di identificare in modo univoco un singolo oggetto o regione all'interno di un'immagine. Vedi maggiori dettagli in questo documento: Generazione e comprensione di descrizioni di oggetti non ambigui.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/mjhucla/Google_Refexp_toolbox
Codice sorgente :
tfds.vision_language.gref.Gref
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensioni del download :
Unknown size
Dimensione del set di dati:
4.60 GiB
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir
(il valore predefinito~/tensorflow_datasets/downloads/manual/
):
Segui le istruzioni su https://github.com/mjhucla/Google_Refexp_toolbox per scaricare e pre-elaborare i dati in un formato allineato con COCO. La directory contiene 2 file e una cartella:google_refexp_train_201511_coco_aligned_catg.json
google_refexp_val_201511_coco_aligned_catg.json
coco_treno2014/
La cartella coco_train2014 contiene tutte le immagini di allenamento COCO 2014.
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'train' | 24.698 |
'validation' | 4.650 |
- Struttura delle caratteristiche :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'referent': Text(shape=(), dtype=string),
'refexp_id': int64,
'tokens': Sequence(Text(shape=(), dtype=string)),
}),
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
Immagine | Immagine | (Nessuno, Nessuno, 3) | uint8 | |
immagine/id | Tensore | int64 | ||
oggetti | Sequenza | |||
oggetti/area | Tensore | int64 | ||
oggetti/box | Funzionalità BBox | (4,) | galleggiante32 | |
oggetti/id | Tensore | int64 | ||
oggetti/etichetta | Tensore | int64 | ||
oggetti/nome_etichetta | ClassLabel | int64 | ||
oggetti/refexp | Sequenza | |||
oggetti/refexp/raw | Testo | corda | ||
oggetti/refexp/referente | Testo | corda | ||
oggetti/refexp/refexp_id | Tensore | int64 | ||
oggetti/refexp/token | Sequenza(Testo) | (Nessuno,) | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):
- Citazione :
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}