- Description :
L’ensemble de données LAION-400M est totalement ouvert et librement accessible.
Consultez https://laion.ai/laion-400-open-dataset/ pour la description complète de cet ensemble de données.
Toutes les images et textes de l'ensemble de données LAION-400M ont été filtrés avec le CLIP d'OpenAI en calculant la similarité cosinus entre les intégrations de texte et d'image et en supprimant ceux dont la similarité est inférieure à 0,3. Le seuil de 0,3 avait été déterminé par des évaluations humaines et semblait être une bonne heuristique pour estimer la correspondance sémantique image-texte-contenu.
Les paires image-texte ont été extraites du vidage de données Web Common Crawl et proviennent de pages Web aléatoires explorées entre 2014 et 2021.
Documentation supplémentaire : Explorer sur les articles avec le code
Page d'accueil : https://laion.ai/blog/laion-400-open-dataset/
Code source :
tfds.vision_language.laion400m.Laion400m
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
Unknown size
Taille du jeu de données :
Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez les données sources manuellement dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Reportez-vous à la section « Informations de téléchargement » sur https://laion.ai/blog/laion-400-open-dataset/Mise en cache automatique ( documentation ) : Inconnu
Divisions :
Diviser | Exemples |
---|
Clés supervisées (Voir doc
as_supervised
) :None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) : Manquant.
Citation :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/images (configuration par défaut)
- Structure des fonctionnalités :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'url': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description | Plage de valeurs |
---|---|---|---|---|---|
FonctionnalitésDict | |||||
légende | Texte | chaîne | Attribut de texte alternatif HTML | ||
image | Image | (Aucun, Aucun, 3) | uint8 | image | |
licence | Texte | chaîne | type de licence Creative Commons (le cas échéant) | ||
nsfw | Étiquette de classe | int64 | Balise NSFW (détectée avec CLIP). Les balises incohésives et manquantes sont remplacées par UNTAGGED | ||
hauteur_originale | Scalaire | int32 | hauteur originale de l'image | ||
largeur_originale | Scalaire | int32 | largeur originale de l'image | ||
similarité | Scalaire | flotteur64 | score de similarité cosinus entre l'intégration du texte et de l'image. Les valeurs manquantes sont par défaut -1,0 | [0,0, 1,0] | |
URL | Texte | chaîne | URL de l'image |
laion400m/encastrements
- Structure des fonctionnalités :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
'url': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description | Plage de valeurs |
---|---|---|---|---|---|
FonctionnalitésDict | |||||
légende | Texte | chaîne | Attribut de texte alternatif HTML | ||
image_embedding | Tenseur | (512,) | flotteur16 | Intégration d'images CLIP | |
licence | Texte | chaîne | type de licence Creative Commons (le cas échéant) | ||
nsfw | Étiquette de classe | int64 | Balise NSFW (détectée avec CLIP). Les balises incohésives et manquantes sont remplacées par UNTAGGED | ||
hauteur_originale | Scalaire | int32 | hauteur originale de l'image | ||
largeur_originale | Scalaire | int32 | largeur originale de l'image | ||
similarité | Scalaire | flotteur64 | score de similarité cosinus entre l'intégration du texte et de l'image. Les valeurs manquantes sont par défaut -1,0 | [0,0, 1,0] | |
text_embedding | Tenseur | (512,) | flotteur16 | Intégration de texte CLIP | |
URL | Texte | chaîne | URL de l'image |