- Descrizione :
Il set di dati LAION-400M è completamente aperto e liberamente accessibile.
Controlla https://laion.ai/laion-400-open-dataset/ per la descrizione completa di questo set di dati.
Tutte le immagini e i testi nel set di dati LAION-400M sono stati filtrati con CLIP di OpenAI calcolando la somiglianza del coseno tra gli incorporamenti di testo e immagini e eliminando quelli con una somiglianza inferiore a 0,3. La soglia di 0,3 era stata determinata attraverso valutazioni umane e sembrava essere una buona euristica per stimare la corrispondenza semantica immagine-testo-contenuto.
Le coppie immagine-testo sono state estratte dal dump dei dati web di Common Crawl e provengono da pagine web casuali scansionate tra il 2014 e il 2021.
Documentazione aggiuntiva : esplora documenti con codice
Pagina iniziale : https://laion.ai/blog/laion-400-open-dataset/
Codice sorgente :
tfds.vision_language.laion400m.Laion400m
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensioni del download :
Unknown size
Dimensioni del set di dati :
Unknown size
Istruzioni per il download manuale : questo set di dati richiede il download manuale dei dati di origine in
download_config.manual_dir
(il valore predefinito è~/tensorflow_datasets/downloads/manual/
):
Fare riferimento alla sezione "Informazioni sul download" su https://laion.ai/blog/laion-400-open-dataset/Memorizzato automaticamente nella cache ( documentazione ): sconosciuto
Divide :
Diviso | Esempi |
---|
Chiavi supervisionate (vedi il documento
as_supervised
):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ): Mancante.
Citazione :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/images (configurazione predefinita)
- Struttura delle caratteristiche :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'url': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione | Intervallo di valori |
---|---|---|---|---|---|
CaratteristicheDict | |||||
didascalia | Testo | corda | Attributo del testo alternativo HTML | ||
immagine | Immagine | (Nessuno, Nessuno, 3) | uint8 | immagine | |
licenza | Testo | corda | tipo di licenza Creative Commons (se applicabile) | ||
nsfw | ClassLabel | int64 | Tag NSFW (rilevato con CLIP). I tag non coesi e mancanti vengono sostituiti con UNTAGGED | ||
altezza_originale | Scalare | int32 | altezza originale dell'immagine | ||
larghezza_originale | Scalare | int32 | larghezza originale dell'immagine | ||
somiglianza | Scalare | float64 | punteggio di somiglianza del coseno tra il testo e l'incorporamento dell'immagine. I valori mancanti vengono impostati automaticamente su -1.0 | [0,0, 1,0] | |
URL | Testo | corda | URL dell'immagine |
laion400m/incorporamenti
- Struttura delle caratteristiche :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
'url': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione | Intervallo di valori |
---|---|---|---|---|---|
CaratteristicheDict | |||||
didascalia | Testo | corda | Attributo del testo alternativo HTML | ||
incorporamento_immagine | Tensore | (512,) | float16 | Incorporamento di immagini CLIP | |
licenza | Testo | corda | tipo di licenza Creative Commons (se applicabile) | ||
nsfw | ClassLabel | int64 | Tag NSFW (rilevato con CLIP). I tag non coesi e mancanti vengono sostituiti con UNTAGGED | ||
altezza_originale | Scalare | int32 | altezza originale dell'immagine | ||
larghezza_originale | Scalare | int32 | larghezza originale dell'immagine | ||
somiglianza | Scalare | float64 | punteggio di somiglianza del coseno tra il testo e l'incorporamento dell'immagine. I valori mancanti vengono impostati automaticamente su -1.0 | [0,0, 1,0] | |
text_embedding | Tensore | (512,) | float16 | Incorporamento del testo CLIP | |
URL | Testo | corda | URL dell'immagine |