- توضیحات :
مجموعه داده LAION-400M کاملاً باز و آزادانه در دسترس است.
برای توضیحات کامل این مجموعه داده https://laion.ai/laion-400-open-dataset/ را بررسی کنید.
تمامی تصاویر و متون موجود در مجموعه داده LAION-400M با محاسبه شباهت کسینوس بین متن و جاسازی تصویر و حذف مواردی که شباهت کمتر از 0.3 دارند، با CLIP OpenAI فیلتر شده اند. آستانه 0.3 از طریق ارزیابی های انسانی تعیین شده بود و به نظر می رسید اکتشافی خوبی برای تخمین تطابق معنایی تصویر-متن-محتوا باشد.
جفتهای تصویر-متن از پایگاه دادههای وب Common Crawl استخراج شدهاند و از صفحات وب تصادفی هستند که بین سالهای 2014 و 2021 خزیده شدهاند.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://laion.ai/blog/laion-400-open-dataset/
کد منبع :
tfds.vision_language.laion400m.Laion400m
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
اندازه دانلود :
Unknown size
اندازه مجموعه داده :
Unknown size
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
دانلود کنید (پیشفرض~/tensorflow_datasets/downloads/manual/
):
به بخش «دانلود اطلاعات» در https://laion.ai/blog/laion-400-open-dataset/ مراجعه کنید.ذخیره خودکار ( اسناد ): ناشناخته
تقسیمات :
تقسیم کنید | نمونه ها |
---|
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ): وجود ندارد.
نقل قول :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/images (پیکربندی پیش فرض)
- ساختار ویژگی :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'url': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | توضیحات | محدوده ارزش |
---|---|---|---|---|---|
FeaturesDict | |||||
عنوان | متن | رشته | ویژگی متن جایگزین HTML | ||
تصویر | تصویر | (هیچ، هیچ، 3) | uint8 | تصویر | |
مجوز | متن | رشته | نوع مجوز Creative Commons (در صورت وجود) | ||
nsfw | ClassLabel | int64 | برچسب NSFW (با CLIP شناسایی شد). برچسبهای غیر منسجم و گمشده با UNTAGGED جایگزین میشوند | ||
ارتفاع_اصلی | اسکالر | int32 | ارتفاع اصلی تصویر | ||
عرض_اصلی | اسکالر | int32 | عرض اصلی تصویر | ||
شباهت | اسکالر | float64 | امتیاز شباهت کسینوس بین متن و جاسازی تصویر. مقادیر از دست رفته به طور پیش فرض -1.0 است | [0.0، 1.0] | |
آدرس اینترنتی | متن | رشته | آدرس تصویر |
laion400m/Embeddings
- ساختار ویژگی :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
'url': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | توضیحات | محدوده ارزش |
---|---|---|---|---|---|
FeaturesDict | |||||
عنوان | متن | رشته | ویژگی متن جایگزین HTML | ||
image_embedding | تانسور | (512،) | float16 | جاسازی تصویر CLIP | |
مجوز | متن | رشته | نوع مجوز Creative Commons (در صورت وجود) | ||
nsfw | ClassLabel | int64 | برچسب NSFW (با CLIP شناسایی شد). برچسبهای غیر منسجم و گمشده با UNTAGGED جایگزین میشوند | ||
ارتفاع_اصلی | اسکالر | int32 | ارتفاع اصلی تصویر | ||
عرض_اصلی | اسکالر | int32 | عرض اصلی تصویر | ||
شباهت | اسکالر | float64 | امتیاز شباهت کسینوس بین متن و جاسازی تصویر. مقادیر از دست رفته به طور پیش فرض -1.0 است | [0.0، 1.0] | |
text_embedding | تانسور | (512،) | float16 | جاسازی متن CLIP | |
آدرس اینترنتی | متن | رشته | آدرس تصویر |