laion400m

  • Description :

L’ensemble de données LAION-400M est totalement ouvert et librement accessible.

Consultez https://laion.ai/laion-400-open-dataset/ pour la description complète de cet ensemble de données.

Toutes les images et textes de l'ensemble de données LAION-400M ont été filtrés avec le CLIP d'OpenAI en calculant la similarité cosinus entre les intégrations de texte et d'image et en supprimant ceux dont la similarité est inférieure à 0,3. Le seuil de 0,3 avait été déterminé par des évaluations humaines et semblait être une bonne heuristique pour estimer la correspondance sémantique image-texte-contenu.

Les paires image-texte ont été extraites du vidage de données Web Common Crawl et proviennent de pages Web aléatoires explorées entre 2014 et 2021.

Diviser Exemples
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (configuration par défaut)

  • Structure des fonctionnalités :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description Plage de valeurs
FonctionnalitésDict
légende Texte chaîne Attribut de texte alternatif HTML
image Image (Aucun, Aucun, 3) uint8 image
licence Texte chaîne type de licence Creative Commons (le cas échéant)
nsfw Étiquette de classe int64 Balise NSFW (détectée avec CLIP). Les balises incohésives et manquantes sont remplacées par UNTAGGED
hauteur_originale Scalaire int32 hauteur originale de l'image
largeur_originale Scalaire int32 largeur originale de l'image
similarité Scalaire flotteur64 score de similarité cosinus entre l'intégration du texte et de l'image. Les valeurs manquantes sont par défaut -1,0 [0,0, 1,0]
URL Texte chaîne URL de l'image

laion400m/encastrements

  • Structure des fonctionnalités :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description Plage de valeurs
FonctionnalitésDict
légende Texte chaîne Attribut de texte alternatif HTML
image_embedding Tenseur (512,) flotteur16 Intégration d'images CLIP
licence Texte chaîne type de licence Creative Commons (le cas échéant)
nsfw Étiquette de classe int64 Balise NSFW (détectée avec CLIP). Les balises incohésives et manquantes sont remplacées par UNTAGGED
hauteur_originale Scalaire int32 hauteur originale de l'image
largeur_originale Scalaire int32 largeur originale de l'image
similarité Scalaire flotteur64 score de similarité cosinus entre l'intégration du texte et de l'image. Les valeurs manquantes sont par défaut -1,0 [0,0, 1,0]
text_embedding Tenseur (512,) flotteur16 Intégration de texte CLIP
URL Texte chaîne URL de l'image