laion400m

  • Descrizione :

Il set di dati LAION-400M è completamente aperto e liberamente accessibile.

Controlla https://laion.ai/laion-400-open-dataset/ per la descrizione completa di questo set di dati.

Tutte le immagini e i testi nel set di dati LAION-400M sono stati filtrati con CLIP di OpenAI calcolando la somiglianza del coseno tra gli incorporamenti di testo e immagini e eliminando quelli con una somiglianza inferiore a 0,3. La soglia di 0,3 era stata determinata attraverso valutazioni umane e sembrava essere una buona euristica per stimare la corrispondenza semantica immagine-testo-contenuto.

Le coppie immagine-testo sono state estratte dal dump dei dati web di Common Crawl e provengono da pagine web casuali scansionate tra il 2014 e il 2021.

Diviso Esempi
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (configurazione predefinita)

  • Struttura delle caratteristiche :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione Intervallo di valori
CaratteristicheDict
didascalia Testo corda Attributo del testo alternativo HTML
immagine Immagine (Nessuno, Nessuno, 3) uint8 immagine
licenza Testo corda tipo di licenza Creative Commons (se applicabile)
nsfw ClassLabel int64 Tag NSFW (rilevato con CLIP). I tag non coesi e mancanti vengono sostituiti con UNTAGGED
altezza_originale Scalare int32 altezza originale dell'immagine
larghezza_originale Scalare int32 larghezza originale dell'immagine
somiglianza Scalare float64 punteggio di somiglianza del coseno tra il testo e l'incorporamento dell'immagine. I valori mancanti vengono impostati automaticamente su -1.0 [0,0, 1,0]
URL Testo corda URL dell'immagine

laion400m/incorporamenti

  • Struttura delle caratteristiche :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione Intervallo di valori
CaratteristicheDict
didascalia Testo corda Attributo del testo alternativo HTML
incorporamento_immagine Tensore (512,) float16 Incorporamento di immagini CLIP
licenza Testo corda tipo di licenza Creative Commons (se applicabile)
nsfw ClassLabel int64 Tag NSFW (rilevato con CLIP). I tag non coesi e mancanti vengono sostituiti con UNTAGGED
altezza_originale Scalare int32 altezza originale dell'immagine
larghezza_originale Scalare int32 larghezza originale dell'immagine
somiglianza Scalare float64 punteggio di somiglianza del coseno tra il testo e l'incorporamento dell'immagine. I valori mancanti vengono impostati automaticamente su -1.0 [0,0, 1,0]
text_embedding Tensore (512,) float16 Incorporamento del testo CLIP
URL Testo corda URL dell'immagine