لایون 400 متر

توضیحات :

مجموعه داده LAION-400M کاملاً باز و آزادانه در دسترس است.

برای توضیحات کامل این مجموعه داده https://laion.ai/laion-400-open-dataset/ را بررسی کنید.

تمامی تصاویر و متون موجود در مجموعه داده LAION-400M با محاسبه شباهت کسینوس بین متن و جاسازی تصویر و حذف مواردی که شباهت کمتر از 0.3 دارند، با CLIP OpenAI فیلتر شده اند. آستانه 0.3 از طریق ارزیابی های انسانی تعیین شده بود و به نظر می رسید اکتشافی خوبی برای تخمین تطابق معنایی تصویر-متن-محتوا باشد.

جفت‌های تصویر-متن از پایگاه داده‌های وب Common Crawl استخراج شده‌اند و از صفحات وب تصادفی هستند که بین سال‌های 2014 و 2021 خزیده شده‌اند.

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://laion.ai/blog/laion-400-open-dataset/
کد منبع : tfds.vision_language.laion400m.Laion400m
نسخه ها :
- 1.0.0 (پیش فرض): انتشار اولیه.
اندازه دانلود : Unknown size
اندازه مجموعه داده : Unknown size
دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir دانلود کنید (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):
به بخش «دانلود اطلاعات» در https://laion.ai/blog/laion-400-open-dataset/ مراجعه کنید.
ذخیره خودکار ( اسناد ): ناشناخته
تقسیمات :

تقسیم کنید	نمونه ها

کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ): وجود ندارد.
نقل قول :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (پیکربندی پیش فرض)

ساختار ویژگی :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D	توضیحات	محدوده ارزش
	FeaturesDict
عنوان	متن		رشته	ویژگی متن جایگزین HTML
تصویر	تصویر	(هیچ، هیچ، 3)	uint8	تصویر
مجوز	متن		رشته	نوع مجوز Creative Commons (در صورت وجود)
nsfw	ClassLabel		int64	برچسب NSFW (با CLIP شناسایی شد). برچسب‌های غیر منسجم و گمشده با UNTAGGED جایگزین می‌شوند
ارتفاع_اصلی	اسکالر		int32	ارتفاع اصلی تصویر
عرض_اصلی	اسکالر		int32	عرض اصلی تصویر
شباهت	اسکالر		float64	امتیاز شباهت کسینوس بین متن و جاسازی تصویر. مقادیر از دست رفته به طور پیش فرض -1.0 است	[0.0، 1.0]
آدرس اینترنتی	متن		رشته	آدرس تصویر

laion400m/Embeddings

ساختار ویژگی :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D	توضیحات	محدوده ارزش
	FeaturesDict
عنوان	متن		رشته	ویژگی متن جایگزین HTML
image_embedding	تانسور	(512،)	float16	جاسازی تصویر CLIP
مجوز	متن		رشته	نوع مجوز Creative Commons (در صورت وجود)
nsfw	ClassLabel		int64	برچسب NSFW (با CLIP شناسایی شد). برچسب‌های غیر منسجم و گمشده با UNTAGGED جایگزین می‌شوند
ارتفاع_اصلی	اسکالر		int32	ارتفاع اصلی تصویر
عرض_اصلی	اسکالر		int32	عرض اصلی تصویر
شباهت	اسکالر		float64	امتیاز شباهت کسینوس بین متن و جاسازی تصویر. مقادیر از دست رفته به طور پیش فرض -1.0 است	[0.0، 1.0]
text_embedding	تانسور	(512،)	float16	جاسازی متن CLIP
آدرس اینترنتی	متن		رشته	آدرس تصویر

لایون 400 متر با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

laion400m/images (پیکربندی پیش فرض)

laion400m/Embeddings

لایون 400 متر