laion400m

Descrizione :

Il set di dati LAION-400M è completamente aperto e liberamente accessibile.

Controlla https://laion.ai/laion-400-open-dataset/ per la descrizione completa di questo set di dati.

Tutte le immagini e i testi nel set di dati LAION-400M sono stati filtrati con CLIP di OpenAI calcolando la somiglianza del coseno tra gli incorporamenti di testo e immagini e eliminando quelli con una somiglianza inferiore a 0,3. La soglia di 0,3 era stata determinata attraverso valutazioni umane e sembrava essere una buona euristica per stimare la corrispondenza semantica immagine-testo-contenuto.

Le coppie immagine-testo sono state estratte dal dump dei dati web di Common Crawl e provengono da pagine web casuali scansionate tra il 2014 e il 2021.

Documentazione aggiuntiva : esplora documenti con codice
Pagina iniziale : https://laion.ai/blog/laion-400-open-dataset/
Codice sorgente : tfds.vision_language.laion400m.Laion400m
Versioni :
- 1.0.0 (impostazione predefinita): versione iniziale.
Dimensioni del download : Unknown size
Dimensioni del set di dati : Unknown size
Istruzioni per il download manuale : questo set di dati richiede il download manuale dei dati di origine in download_config.manual_dir (il valore predefinito è ~/tensorflow_datasets/downloads/manual/ ):
Fare riferimento alla sezione "Informazioni sul download" su https://laion.ai/blog/laion-400-open-dataset/
Memorizzato automaticamente nella cache ( documentazione ): sconosciuto
Divide :

Diviso	Esempi

Chiavi supervisionate (vedi il documento as_supervised ): None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ): Mancante.
Citazione :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (configurazione predefinita)

Struttura delle caratteristiche :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D	Descrizione	Intervallo di valori
	CaratteristicheDict
didascalia	Testo		corda	Attributo del testo alternativo HTML
immagine	Immagine	(Nessuno, Nessuno, 3)	uint8	immagine
licenza	Testo		corda	tipo di licenza Creative Commons (se applicabile)
nsfw	ClassLabel		int64	Tag NSFW (rilevato con CLIP). I tag non coesi e mancanti vengono sostituiti con UNTAGGED
altezza_originale	Scalare		int32	altezza originale dell'immagine
larghezza_originale	Scalare		int32	larghezza originale dell'immagine
somiglianza	Scalare		float64	punteggio di somiglianza del coseno tra il testo e l'incorporamento dell'immagine. I valori mancanti vengono impostati automaticamente su -1.0	[0,0, 1,0]
URL	Testo		corda	URL dell'immagine

laion400m/incorporamenti

Struttura delle caratteristiche :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D	Descrizione	Intervallo di valori
	CaratteristicheDict
didascalia	Testo		corda	Attributo del testo alternativo HTML
incorporamento_immagine	Tensore	(512,)	float16	Incorporamento di immagini CLIP
licenza	Testo		corda	tipo di licenza Creative Commons (se applicabile)
nsfw	ClassLabel		int64	Tag NSFW (rilevato con CLIP). I tag non coesi e mancanti vengono sostituiti con UNTAGGED
altezza_originale	Scalare		int32	altezza originale dell'immagine
larghezza_originale	Scalare		int32	larghezza originale dell'immagine
somiglianza	Scalare		float64	punteggio di somiglianza del coseno tra il testo e l'incorporamento dell'immagine. I valori mancanti vengono impostati automaticamente su -1.0	[0,0, 1,0]
text_embedding	Tensore	(512,)	float16	Incorporamento del testo CLIP
URL	Testo		corda	URL dell'immagine

laion400m Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

laion400m/images (configurazione predefinita)

laion400m/incorporamenti

laion400m