laion400m

  • Descripción :

El conjunto de datos LAION-400M es completamente abierto y de libre acceso.

Consulte https://laion.ai/laion-400-open-dataset/ para obtener la descripción completa de este conjunto de datos.

Todas las imágenes y textos en el conjunto de datos LAION-400M se filtraron con CLIP de OpenAI calculando la similitud del coseno entre el texto y las incrustaciones de imágenes y eliminando aquellas con una similitud inferior a 0,3. El umbral de 0,3 se había determinado mediante evaluaciones humanas y parecía ser una buena heurística para estimar la correspondencia semántica entre imagen, texto y contenido.

Los pares de imagen-texto se extrajeron del volcado de datos web de Common Crawl y provienen de páginas web aleatorias rastreadas entre 2014 y 2021.

Dividir Ejemplos
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (configuración predeterminada)

  • Estructura de características :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción Rango de valores
FuncionesDict
subtítulo Texto cadena Atributo de texto alternativo HTML
imagen Imagen (Ninguno, Ninguno, 3) uint8 imagen
licencia Texto cadena tipo de licencia Creative Commons (si corresponde)
NSFW Etiqueta de clase int64 Etiqueta NSFW (detectada con CLIP). Las etiquetas incohesivas y faltantes se reemplazan por SIN ETIQUETAR
altura_original Escalar int32 altura original de la imagen
ancho_original Escalar int32 ancho original de la imagen
semejanza Escalar flotador64 Puntuación de similitud de coseno entre el texto y la incrustación de imágenes. Los valores faltantes son predeterminados -1,0 [0.0, 1.0]
URL Texto cadena URL de la imagen

laion400m/incrustaciones

  • Estructura de características :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción Rango de valores
FuncionesDict
subtítulo Texto cadena Atributo de texto alternativo HTML
incrustación de imagen Tensor (512,) flotador16 Incrustación de imágenes CLIP
licencia Texto cadena tipo de licencia Creative Commons (si corresponde)
NSFW Etiqueta de clase int64 Etiqueta NSFW (detectada con CLIP). Las etiquetas incohesivas y faltantes se reemplazan por SIN ETIQUETAR
altura_original Escalar int32 altura original de la imagen
ancho_original Escalar int32 ancho original de la imagen
semejanza Escalar flotador64 Puntuación de similitud de coseno entre el texto y la incrustación de imágenes. Los valores faltantes son predeterminados -1,0 [0,0, 1,0]
incrustación de texto Tensor (512,) flotador16 Incrustación de texto CLIP
URL Texto cadena URL de la imagen