Conozca lo último en aprendizaje automático, IA generativa y más en el Simposio WiML 2023.

Se usó la API de Cloud Translation para traducir esta página.

gref
bookmark_border Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Descripción :

El conjunto de datos de Google RefExp es una colección de descripciones de texto de objetos en imágenes que se basa en el conjunto de datos MS-COCO disponible públicamente. Mientras que los títulos de imagen en MS-COCO se aplican a toda la imagen, este conjunto de datos se centra en las descripciones de texto que permiten identificar de forma única un único objeto o región dentro de una imagen. Ver más detalles en este documento: Generación y comprensión de descripciones de objetos inequívocas.

Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/mjhucla/Google_Refexp_toolbox
Código fuente : tfds.vision_language.gref.Gref
Versiones :
- 1.0.0 (predeterminado): Versión inicial.
Tamaño de descarga : Unknown size
Tamaño del conjunto de datos : 4.60 GiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
Siga las instrucciones en https://github.com/mjhucla/Google_Refexp_toolbox para descargar y preprocesar los datos en un formato alineado con COCO. El directorio contiene 2 archivos y una carpeta:
google_refexp_train_201511_coco_aligned_catg.json
google_refexp_val_201511_coco_aligned_catg.json
coco_tren2014/

La carpeta coco_train2014 contiene todas las imágenes de entrenamiento de COCO 2014.

Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'train'`	24,698
`'validation'`	4,650

Estructura de características :

FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
        'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'referent': Text(shape=(), dtype=string),
            'refexp_id': int64,
            'tokens': Sequence(Text(shape=(), dtype=string)),
        }),
    }),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
imagen	Imagen	(Ninguno, Ninguno, 3)	uint8
imagen/identificación	Tensor		int64
objetos	Secuencia
objetos/área	Tensor		int64
objetos/bbox	BBoxCaracterística	(4,)	flotar32
objetos/identificación	Tensor		int64
objetos/etiqueta	Tensor		int64
objetos/nombre_etiqueta	Etiqueta de clase		int64
objetos/refexp	Secuencia
objetos/refexp/sin procesar	Texto		cuerda
objetos/refexp/referente	Texto		cuerda
objetos/refexp/refexp_id	Tensor		int64
objetos/refexp/tokens	Secuencia (Texto)	(Ninguna,)	cuerda

Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ):

Visualización

Ejemplos ( tfds.as_dataframe ):

Cita :

@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}

gref bookmark_borderbookmark Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

gref
bookmark_border Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.