gref

  • Descrizione :

Il set di dati Google RefExp è una raccolta di descrizioni testuali di oggetti nelle immagini che si basa sul set di dati MS-COCO pubblicamente disponibile. Mentre le didascalie delle immagini in MS-COCO si applicano all'intera immagine, questo set di dati si concentra sulle descrizioni testuali che consentono di identificare in modo univoco un singolo oggetto o regione all'interno di un'immagine. Vedi maggiori dettagli in questo documento: Generazione e comprensione di descrizioni di oggetti non ambigui.

  • Documentazione aggiuntiva : Esplora documenti con codice

  • Pagina iniziale : https://github.com/mjhucla/Google_Refexp_toolbox

  • Codice sorgente : tfds.vision_language.gref.Gref

  • Versioni :

    • 1.0.0 (impostazione predefinita): versione iniziale.
  • Dimensioni del download : Unknown size

  • Dimensione del set di dati: 4.60 GiB

  • Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in download_config.manual_dir (il valore predefinito ~/tensorflow_datasets/downloads/manual/ ):
    Segui le istruzioni su https://github.com/mjhucla/Google_Refexp_toolbox per scaricare e pre-elaborare i dati in un formato allineato con COCO. La directory contiene 2 file e una cartella:

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_treno2014/

La cartella coco_train2014 contiene tutte le immagini di allenamento COCO 2014.

Diviso Esempi
'train' 24.698
'validation' 4.650
  • Struttura delle caratteristiche :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
        'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'referent': Text(shape=(), dtype=string),
            'refexp_id': int64,
            'tokens': Sequence(Text(shape=(), dtype=string)),
        }),
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
Immagine Immagine (Nessuno, Nessuno, 3) uint8
immagine/id Tensore int64
oggetti Sequenza
oggetti/area Tensore int64
oggetti/box Funzionalità BBox (4,) galleggiante32
oggetti/id Tensore int64
oggetti/etichetta Tensore int64
oggetti/nome_etichetta ClassLabel int64
oggetti/refexp Sequenza
oggetti/refexp/raw Testo corda
oggetti/refexp/referente Testo corda
oggetti/refexp/refexp_id Tensore int64
oggetti/refexp/token Sequenza(Testo) (Nessuno,) corda

Visualizzazione

  • Citazione :
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}