gref

  • Descripción :

El conjunto de datos de Google RefExp es una colección de descripciones de texto de objetos en imágenes que se basa en el conjunto de datos MS-COCO disponible públicamente. Mientras que los títulos de imagen en MS-COCO se aplican a toda la imagen, este conjunto de datos se centra en las descripciones de texto que permiten identificar de forma única un único objeto o región dentro de una imagen. Ver más detalles en este documento: Generación y comprensión de descripciones de objetos inequívocas.

  • Documentación adicional : Explore en Papers With Code

  • Página de inicio: https://github.com/mjhucla/Google_Refexp_toolbox

  • Código fuente : tfds.vision_language.gref.Gref

  • Versiones :

    • 1.0.0 (predeterminado): Versión inicial.
  • Tamaño de descarga : Unknown size

  • Tamaño del conjunto de datos : 4.60 GiB

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    Siga las instrucciones en https://github.com/mjhucla/Google_Refexp_toolbox para descargar y preprocesar los datos en un formato alineado con COCO. El directorio contiene 2 archivos y una carpeta:

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_tren2014/

La carpeta coco_train2014 contiene todas las imágenes de entrenamiento de COCO 2014.

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'train' 24,698
'validation' 4,650
  • Estructura de características :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
        'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'referent': Text(shape=(), dtype=string),
            'refexp_id': int64,
            'tokens': Sequence(Text(shape=(), dtype=string)),
        }),
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
imagen Imagen (Ninguno, Ninguno, 3) uint8
imagen/identificación Tensor int64
objetos Secuencia
objetos/área Tensor int64
objetos/bbox BBoxCaracterística (4,) flotar32
objetos/identificación Tensor int64
objetos/etiqueta Tensor int64
objetos/nombre_etiqueta Etiqueta de clase int64
objetos/refexp Secuencia
objetos/refexp/sin procesar Texto cuerda
objetos/refexp/referente Texto cuerda
objetos/refexp/refexp_id Tensor int64
objetos/refexp/tokens Secuencia (Texto) (Ninguna,) cuerda

Visualización

  • Cita :
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}