- توضیحات :
ILSVRC 2012 که معمولاً به عنوان "ImageNet" شناخته می شود یک مجموعه داده تصویری است که بر اساس سلسله مراتب WordNet سازماندهی شده است. هر مفهوم معناداری در WordNet، که احتمالاً با چندین کلمه یا عبارات کلمه توصیف می شود، "مجموعه مترادف" یا "synset" نامیده می شود. بیش از 100000 synset در WordNet وجود دارد که اکثر آنها اسم هستند (80000+). در ImageNet، هدف ما ارائه به طور متوسط 1000 تصویر برای نشان دادن هر synset است. تصاویر هر مفهوم با کیفیت کنترل شده و مشروح شده توسط انسان است. در تکمیل آن، امیدواریم ImageNet دهها میلیون تصویر مرتبشده را برای اکثر مفاهیم در سلسله مراتب WordNet ارائه دهد.
تقسیم آزمایشی شامل 100 هزار تصویر است اما هیچ برچسبی ندارد زیرا هیچ برچسبی به طور عمومی منتشر نشده است. ما از تقسیم آزمایشی از سال 2012 با وصله کوچک منتشر شده در 10 اکتبر 2019 پشتیبانی می کنیم. برای دانلود دستی این داده ها، کاربر باید عملیات زیر را انجام دهد:
- تقسیم آزمون 2012 را از اینجا دانلود کنید.
- پچ 10 اکتبر 2019 را دانلود کنید. یک پیوند Google Drive به پچ ارائه شده در همان صفحه وجود دارد.
- دو توپ تار را با هم ترکیب کنید و هر تصویری را که در آرشیو اصلی وجود دارد را با تصاویری از پچ به صورت دستی بازنویسی کنید. طبق دستورالعمل های موجود در image-net.org، این روش فقط چند تصویر را بازنویسی می کند.
سپس توپ تار حاصل می تواند توسط TFDS پردازش شود.
برای ارزیابی دقت یک مدل در تقسیم آزمایشی ImageNet، باید استنتاج را روی همه تصاویر در تقسیم اجرا کرد، آن نتایج را به یک فایل متنی صادر کرد که باید در سرور ارزیابی ImageNet آپلود شود. نگهدارنده سرور ارزیابی ImageNet به یک کاربر اجازه می دهد تا حداکثر 2 مورد را در هفته ارسال کند تا از برازش بیش از حد جلوگیری شود.
برای ارزیابی دقت در تقسیم تست، ابتدا باید یک حساب کاربری در image-net.org ایجاد کنید. این حساب باید توسط مدیر سایت تایید شود. پس از ایجاد حساب، میتوان نتایج را به سرور آزمون در آدرس https://image-net.org/challenges/LSVRC/eval_server.php ارسال کرد. وظیفه مورد علاقه "ارسال طبقه بندی (خطای بالای 5 cls)" است. نمونه ای از یک فایل متنی صادر شده به شکل زیر است:
771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168
فرمت صادرات به طور کامل در "readme.txt" در کیت توسعه 2013 موجود در اینجا توضیح داده شده است: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz لطفا به بخش با عنوان "3.3 CLS-LOC مراجعه کنید. فرمت ارسال". به طور خلاصه، فرمت فایل متنی 100000 خط مربوط به هر تصویر در تقسیم آزمایشی است. هر خط از اعداد صحیح با 5 پیشبینی برتر برای هر تصویر آزمایشی مطابقت دارد. اعداد صحیح مطابق با شماره خط در فایل برچسب های مربوطه، 1 نمایه می شوند. labels.txt را ببینید.
صفحه اصلی : http://image-net.org/
نسخه ها :
-
2.0.0
: برچسب های اعتبار سنجی را برطرف کنید. -
2.0.1
: رفع کدگذاری. هیچ تغییری از نظر کاربر وجود ندارد. 3.0.0
: رفع رنگ آمیزی در 12 تصویر (CMYK -> RGB). ثابت فرمت (تبدیل تصویر png به Jpeg). خواندن سریعتر نسل به طور مستقیم از آرشیو.4.0.0
: (منتشر نشده)5.0.0
(پیشفرض): API تقسیم جدید ( https://tensorflow.org/datasets/splits )5.1.0
: تقسیم تست اضافه شد.
-
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
دانلود کنید (پیشفرض~/tensorflow_datasets/downloads/manual/
):
manual_dir باید شامل دو فایل باشد: ILSVRC2012_img_train.tar و ILSVRC2012_img_val.tar. برای دریافت لینک دانلود مجموعه داده، باید در https://image-net.org/download-images ثبت نام کنید.ذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :
FeaturesDict({
'file_name': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | توضیحات |
---|---|---|---|---|
FeaturesDict | ||||
file_name | متن | رشته | ||
تصویر | تصویر | (هیچ، هیچ، 3) | uint8 | |
برچسب زدن | ClassLabel | int64 |
کلیدهای نظارت شده (مشاهده
as_supervised
doc ):('image', 'label')
نقل قول :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}
imagenet2012_subset/1pct (پیکربندی پیش فرض)
توضیحات پیکربندی : 1 درصد از کل مجموعه آموزشی ImageNet.
حجم دانلود :
254.22 KiB
حجم مجموعه داده :
7.61 GiB
تقسیمات :
تقسیم کنید | نمونه ها |
---|---|
'train' | 12811 |
'validation' | 50000 |
- شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
imagenet2012_subset/10pct
توضیحات پیکربندی : 10 درصد از کل مجموعه آموزشی ImageNet.
حجم دانلود :
2.48 MiB
حجم مجموعه داده :
19.91 GiB
تقسیمات :
تقسیم کنید | نمونه ها |
---|---|
'train' | 128,116 |
'validation' | 50000 |
- شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):