- وصف :
مجموعة بيانات LAION-400M مفتوحة تمامًا ويمكن الوصول إليها مجانًا.
راجع https://laion.ai/laion-400-open-dataset/ للحصول على الوصف الكامل لمجموعة البيانات هذه.
تمت تصفية جميع الصور والنصوص في مجموعة بيانات LAION-400M باستخدام OpenAI's CLIP عن طريق حساب تشابه جيب التمام بين النص وتضمينات الصور وإسقاط تلك التي لها تشابه أقل من 0.3. تم تحديد عتبة 0.3 من خلال التقييمات البشرية ويبدو أنها أداة إرشادية جيدة لتقدير المطابقة الدلالية لمحتوى الصورة والنص.
تم استخراج أزواج الصور والنص من تفريغ بيانات الويب Common Crawl وهي من صفحات الويب العشوائية التي تم الزحف إليها بين عامي 2014 و2021.
وثائق إضافية : استكشف الأوراق ذات الكود
الصفحة الرئيسية : https://laion.ai/blog/laion-400-open-dataset/
كود المصدر :
tfds.vision_language.laion400m.Laion400m
الإصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التحميل :
Unknown size
حجم مجموعة البيانات :
Unknown size
تعليمات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل البيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعداد الافتراضي هو~/tensorflow_datasets/downloads/manual/
):
راجع قسم "تنزيل المعلومات" على https://laion.ai/blog/laion-400-open-dataset/التخزين المؤقت التلقائي ( الوثائق ): غير معروف
الإنشقاقات :
ينقسم | أمثلة |
---|
المفاتيح الخاضعة للإشراف (راجع
as_supervised
doc ):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ): مفقود.
الاقتباس :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/images (التكوين الافتراضي)
- هيكل الميزة :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'url': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع D | وصف | نطاق القيمة |
---|---|---|---|---|---|
المميزاتDict | |||||
التسمية التوضيحية | نص | خيط | سمة النص البديل HTML | ||
صورة | صورة | (لا شيء، لا شيء، 3) | uint8 | صورة | |
رخصة | نص | خيط | نوع ترخيص المشاع الإبداعي (إن وجد) | ||
nsfw | ClassLabel | int64 | علامة NSFW (تم اكتشافها باستخدام CLIP). يتم استبدال العلامات غير المتماسكة والمفقودة بـ UNTAGGED | ||
original_height | العددية | int32 | الارتفاع الأصلي للصورة | ||
original_width | العددية | int32 | العرض الأصلي للصورة | ||
تشابه | العددية | float64 | درجة تشابه جيب التمام بين النص وتضمين الصورة. القيم المفقودة الافتراضية هي -1.0 | [0.0، 1.0] | |
عنوان URL | نص | خيط | عنوان URL للصورة |
laion400m/embeddings
- هيكل الميزة :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
'url': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع D | وصف | نطاق القيمة |
---|---|---|---|---|---|
المميزاتDict | |||||
التسمية التوضيحية | نص | خيط | سمة النص البديل HTML | ||
image_embedding | الموتر | (512،) | تعويم16 | تضمين الصور CLIP | |
رخصة | نص | خيط | نوع ترخيص المشاع الإبداعي (إن وجد) | ||
nsfw | ClassLabel | int64 | علامة NSFW (تم اكتشافها باستخدام CLIP). يتم استبدال العلامات غير المتماسكة والمفقودة بـ UNTAGGED | ||
original_height | العددية | int32 | الارتفاع الأصلي للصورة | ||
original_width | العددية | int32 | العرض الأصلي للصورة | ||
تشابه | العددية | float64 | درجة تشابه جيب التمام بين النص وتضمين الصورة. القيم المفقودة الافتراضية هي -1.0 | [0.0، 1.0] | |
text_embedding | الموتر | (512،) | تعويم16 | تضمين النص CLIP | |
عنوان URL | نص | خيط | عنوان URL للصورة |