laion400m

Descripción :

El conjunto de datos LAION-400M es completamente abierto y de libre acceso.

Consulte https://laion.ai/laion-400-open-dataset/ para obtener la descripción completa de este conjunto de datos.

Todas las imágenes y textos en el conjunto de datos LAION-400M se filtraron con CLIP de OpenAI calculando la similitud del coseno entre el texto y las incrustaciones de imágenes y eliminando aquellas con una similitud inferior a 0,3. El umbral de 0,3 se había determinado mediante evaluaciones humanas y parecía ser una buena heurística para estimar la correspondencia semántica entre imagen, texto y contenido.

Los pares de imagen-texto se extrajeron del volcado de datos web de Common Crawl y provienen de páginas web aleatorias rastreadas entre 2014 y 2021.

Documentación adicional : Explorar en artículos con código
Página de inicio : https://laion.ai/blog/laion-400-open-dataset/
Código fuente : tfds.vision_language.laion400m.Laion400m
Versiones :
- 1.0.0 (predeterminado): versión inicial.
Tamaño de descarga : Unknown size
Tamaño del conjunto de datos : Unknown size
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
Consulte la sección "Descargar información" en https://laion.ai/blog/laion-400-open-dataset/
Almacenamiento en caché automático ( documentación ): Desconocido
Divisiones :

Dividir	Ejemplos

Claves supervisadas (ver documento as_supervised ): None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ): Falta.
Cita :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (configuración predeterminada)

Estructura de características :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})

Documentación de funciones :

Característica	Clase	Forma	tipo D	Descripción	Rango de valores
	FuncionesDict
subtítulo	Texto		cadena	Atributo de texto alternativo HTML
imagen	Imagen	(Ninguno, Ninguno, 3)	uint8	imagen
licencia	Texto		cadena	tipo de licencia Creative Commons (si corresponde)
NSFW	Etiqueta de clase		int64	Etiqueta NSFW (detectada con CLIP). Las etiquetas incohesivas y faltantes se reemplazan por SIN ETIQUETAR
altura_original	Escalar		int32	altura original de la imagen
ancho_original	Escalar		int32	ancho original de la imagen
semejanza	Escalar		flotador64	Puntuación de similitud de coseno entre el texto y la incrustación de imágenes. Los valores faltantes son predeterminados -1,0	[0.0, 1.0]
URL	Texto		cadena	URL de la imagen

laion400m/incrustaciones

Estructura de características :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})

Documentación de funciones :

Característica	Clase	Forma	tipo D	Descripción	Rango de valores
	FuncionesDict
subtítulo	Texto		cadena	Atributo de texto alternativo HTML
incrustación de imagen	Tensor	(512,)	flotador16	Incrustación de imágenes CLIP
licencia	Texto		cadena	tipo de licencia Creative Commons (si corresponde)
NSFW	Etiqueta de clase		int64	Etiqueta NSFW (detectada con CLIP). Las etiquetas incohesivas y faltantes se reemplazan por SIN ETIQUETAR
altura_original	Escalar		int32	altura original de la imagen
ancho_original	Escalar		int32	ancho original de la imagen
semejanza	Escalar		flotador64	Puntuación de similitud de coseno entre el texto y la incrustación de imágenes. Los valores faltantes son predeterminados -1,0	[0,0, 1,0]
incrustación de texto	Tensor	(512,)	flotador16	Incrustación de texto CLIP
URL	Texto		cadena	URL de la imagen