laion400m

  • وصف :

مجموعة بيانات LAION-400M مفتوحة تمامًا ويمكن الوصول إليها مجانًا.

راجع https://laion.ai/laion-400-open-dataset/ للحصول على الوصف الكامل لمجموعة البيانات هذه.

تمت تصفية جميع الصور والنصوص في مجموعة بيانات LAION-400M باستخدام OpenAI's CLIP عن طريق حساب تشابه جيب التمام بين النص وتضمينات الصور وإسقاط تلك التي لها تشابه أقل من 0.3. تم تحديد عتبة 0.3 من خلال التقييمات البشرية ويبدو أنها أداة إرشادية جيدة لتقدير المطابقة الدلالية لمحتوى الصورة والنص.

تم استخراج أزواج الصور والنص من تفريغ بيانات الويب Common Crawl وهي من صفحات الويب العشوائية التي تم الزحف إليها بين عامي 2014 و2021.

ينقسم أمثلة
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (التكوين الافتراضي)

  • هيكل الميزة :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف نطاق القيمة
المميزاتDict
التسمية التوضيحية نص خيط سمة النص البديل HTML
صورة صورة (لا شيء، لا شيء، 3) uint8 صورة
رخصة نص خيط نوع ترخيص المشاع الإبداعي (إن وجد)
nsfw ClassLabel int64 علامة NSFW (تم اكتشافها باستخدام CLIP). يتم استبدال العلامات غير المتماسكة والمفقودة بـ UNTAGGED
original_height العددية int32 الارتفاع الأصلي للصورة
original_width العددية int32 العرض الأصلي للصورة
تشابه العددية float64 درجة تشابه جيب التمام بين النص وتضمين الصورة. القيم المفقودة الافتراضية هي -1.0 [0.0، 1.0]
عنوان URL نص خيط عنوان URL للصورة

laion400m/embeddings

  • هيكل الميزة :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف نطاق القيمة
المميزاتDict
التسمية التوضيحية نص خيط سمة النص البديل HTML
image_embedding الموتر (512،) تعويم16 تضمين الصور CLIP
رخصة نص خيط نوع ترخيص المشاع الإبداعي (إن وجد)
nsfw ClassLabel int64 علامة NSFW (تم اكتشافها باستخدام CLIP). يتم استبدال العلامات غير المتماسكة والمفقودة بـ UNTAGGED
original_height العددية int32 الارتفاع الأصلي للصورة
original_width العددية int32 العرض الأصلي للصورة
تشابه العددية float64 درجة تشابه جيب التمام بين النص وتضمين الصورة. القيم المفقودة الافتراضية هي -1.0 [0.0، 1.0]
text_embedding الموتر (512،) تعويم16 تضمين النص CLIP
عنوان URL نص خيط عنوان URL للصورة