- Descripción :
El conjunto de datos LAION-400M es completamente abierto y de libre acceso.
Consulte https://laion.ai/laion-400-open-dataset/ para obtener la descripción completa de este conjunto de datos.
Todas las imágenes y textos en el conjunto de datos LAION-400M se filtraron con CLIP de OpenAI calculando la similitud del coseno entre el texto y las incrustaciones de imágenes y eliminando aquellas con una similitud inferior a 0,3. El umbral de 0,3 se había determinado mediante evaluaciones humanas y parecía ser una buena heurística para estimar la correspondencia semántica entre imagen, texto y contenido.
Los pares de imagen-texto se extrajeron del volcado de datos web de Common Crawl y provienen de páginas web aleatorias rastreadas entre 2014 y 2021.
Documentación adicional : Explorar en artículos con código
Página de inicio : https://laion.ai/blog/laion-400-open-dataset/
Código fuente :
tfds.vision_language.laion400m.Laion400m
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de descarga :
Unknown size
Tamaño del conjunto de datos :
Unknown size
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
Consulte la sección "Descargar información" en https://laion.ai/blog/laion-400-open-dataset/Almacenamiento en caché automático ( documentación ): Desconocido
Divisiones :
Dividir | Ejemplos |
---|
Claves supervisadas (ver documento
as_supervised
):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ): Falta.
Cita :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/images (configuración predeterminada)
- Estructura de características :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'url': Text(shape=(), dtype=string),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción | Rango de valores |
---|---|---|---|---|---|
FuncionesDict | |||||
subtítulo | Texto | cadena | Atributo de texto alternativo HTML | ||
imagen | Imagen | (Ninguno, Ninguno, 3) | uint8 | imagen | |
licencia | Texto | cadena | tipo de licencia Creative Commons (si corresponde) | ||
NSFW | Etiqueta de clase | int64 | Etiqueta NSFW (detectada con CLIP). Las etiquetas incohesivas y faltantes se reemplazan por SIN ETIQUETAR | ||
altura_original | Escalar | int32 | altura original de la imagen | ||
ancho_original | Escalar | int32 | ancho original de la imagen | ||
semejanza | Escalar | flotador64 | Puntuación de similitud de coseno entre el texto y la incrustación de imágenes. Los valores faltantes son predeterminados -1,0 | [0.0, 1.0] | |
URL | Texto | cadena | URL de la imagen |
laion400m/incrustaciones
- Estructura de características :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
'url': Text(shape=(), dtype=string),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción | Rango de valores |
---|---|---|---|---|---|
FuncionesDict | |||||
subtítulo | Texto | cadena | Atributo de texto alternativo HTML | ||
incrustación de imagen | Tensor | (512,) | flotador16 | Incrustación de imágenes CLIP | |
licencia | Texto | cadena | tipo de licencia Creative Commons (si corresponde) | ||
NSFW | Etiqueta de clase | int64 | Etiqueta NSFW (detectada con CLIP). Las etiquetas incohesivas y faltantes se reemplazan por SIN ETIQUETAR | ||
altura_original | Escalar | int32 | altura original de la imagen | ||
ancho_original | Escalar | int32 | ancho original de la imagen | ||
semejanza | Escalar | flotador64 | Puntuación de similitud de coseno entre el texto y la incrustación de imágenes. Los valores faltantes son predeterminados -1,0 | [0,0, 1,0] | |
incrustación de texto | Tensor | (512,) | flotador16 | Incrustación de texto CLIP | |
URL | Texto | cadena | URL de la imagen |