laion400m

  • Tanım :

LAION-400M veri kümesine tamamen açık ve serbestçe erişilebilir.

Bu veri kümesinin tam açıklaması için https://laion.ai/laion-400-open-dataset/ adresini kontrol edin.

LAION-400M veri kümesindeki tüm görüntüler ve metinler, metin ve görüntü yerleştirmeleri arasındaki kosinüs benzerliği hesaplanarak ve benzerliği 0,3'ün altına düşürülerek OpenAI'nin CLIP'i ile filtrelendi. 0,3 eşiği, insan değerlendirmeleri yoluyla belirlenmişti ve anlamsal görüntü-metin-içerik eşleşmesini tahmin etmek için iyi bir buluşsal yöntem gibi görünüyordu.

Resim-metin çiftleri Common Crawl web veri dökümünden alınmıştır ve 2014 ile 2021 arasında taranan rastgele web sayfalarından alınmıştır.

Bölmek Örnekler
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (varsayılan yapılandırma)

  • Özellik yapısı :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım Değer aralığı
ÖzelliklerDict
altyazı Metin sicim HTML alternatif metin özelliği
resim Resim (Yok, Yok, 3) uint8 resim
lisans Metin sicim Creative Commons lisansının türü (varsa)
nsfw SınıfEtiketi int64 NSFW etiketi (CLIP ile algılandı). Tutarsız ve eksik etiketler UNTAGGED ile değiştirildi
orijinal_yükseklik Skaler int32 görüntünün orijinal yüksekliği
orijinal_genişlik Skaler int32 görüntünün orijinal genişliği
benzerlik Skaler kayan nokta64 Metin ve resim yerleştirme arasındaki kosinüs benzerlik puanı. Eksik değerler varsayılan olarak -1,0'dır [0,0, 1,0]
URL Metin sicim resim URL'si

laion400m/gömmeler

  • Özellik yapısı :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım Değer aralığı
ÖzelliklerDict
altyazı Metin sicim HTML alternatif metin özelliği
resim_gömme Tensör (512,) şamandıra16 CLIP resim yerleştirme
lisans Metin sicim Creative Commons lisansının türü (varsa)
nsfw SınıfEtiketi int64 NSFW etiketi (CLIP ile algılandı). Tutarsız ve eksik etiketler UNTAGGED ile değiştirildi
orijinal_yükseklik Skaler int32 görüntünün orijinal yüksekliği
orijinal_genişlik Skaler int32 görüntünün orijinal genişliği
benzerlik Skaler kayan nokta64 Metin ve resim yerleştirme arasındaki kosinüs benzerlik puanı. Eksik değerler varsayılan olarak -1,0'dır [0,0, 1,0]
metin_gömme Tensör (512,) şamandıra16 CLIP metin yerleştirme
URL Metin sicim resim URL'si