کنترل شده_نویز_برچسب_وب

  • توضیحات :

Controlled Noisy Web Labels مجموعه‌ای از 212000 URL به تصاویر است که در آن هر تصویر با دقت توسط 3-5 متخصص برچسب‌گذاری توسط سرویس برچسب‌گذاری داده‌های ابری Google حاشیه‌نویسی می‌شود. با استفاده از این حاشیه نویسی، اولین معیار نویز کنترل شده برچسب دنیای واقعی از وب را ایجاد می کند.

ما پیکربندی‌های Red Mini-ImageNet (نویز وب دنیای واقعی) و آبی Mini-ImageNet را ارائه می‌کنیم: - controlled_noisy_web_labels/mini_imagenet_red - controlled_noisy_web_labels/mini_imagenet_blue

هر پیکربندی شامل ده نوع با ده سطح نویز p از 0٪ تا 80٪ است. مجموعه اعتبار سنجی دارای برچسب های تمیز است و در تمام مجموعه های آموزشی پر سر و صدا به اشتراک گذاشته می شود. بنابراین، هر پیکربندی دارای تقسیمات زیر است:

  • قطار_00
  • قطار_05
  • train_10
  • قطار_15
  • قطار_20
  • قطار_30
  • قطار_40
  • قطار_50
  • قطار_60
  • قطار_80
  • اعتبار سنجی

جزئیات ساخت و تجزیه و تحلیل مجموعه داده را می توان در مقاله یافت. همه تصاویر به وضوح 84x84 تغییر اندازه می دهند.

  1. تقسیم ها و حاشیه نویسی ها را از اینجا دانلود کنید
  2. مجموعه داده_no_images.zip را به مجموعه داده_no_images/ استخراج کنید.
  3. همه تصاویر موجود در database_no_images/mini-imagenet-annotations.json را در یک پوشه جدید به نام dataset_no_images/noisy_images/ دانلود کنید. نام فایل خروجی باید با شناسه تصویر ارائه شده در mini-imagenet-annotations.json مطابقت داشته باشد. به عنوان مثال، اگر "image/id": "5922767e5677aef4"، تصویر دانلود شده باید مجموعه داده_no_images/noisy_images/5922767e5677aef4.jpg باشد. 4. در https://image-net.org/download-images ثبت نام کنید و ILSVRC2012_img_train.tar و ILSVRC2012_img_val.tar را دانلود کنید.

ساختار دایرکتوری حاصل ممکن است توسط TFDS پردازش شود:

  • مجموعه داده_بدون_تصاویر/
    • mini-imagenet/
    • class_name.txt
    • شکاف/
      • blue_noise_nl_0.0
      • blue_noise_nl_0.1
      • ...
      • red_noise_nl_0.0
      • red_noise_nl_0.1
      • ...
      • clean_validation
    • mini-imagenet-annotations.json
  • ILSVRC2012_img_train.tar
  • ILSVRC2012_img_val.tar
  • تصاویر_پر سر و صدا/

    • 5922767e5677aef4.jpg
  • ذخیره خودکار ( اسناد ): خیر

  • ساختار ویژگی :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
شناسه متن رشته
تصویر تصویر (هیچ، هیچ، 3) uint8
تمیز است تانسور بوول
برچسب ClassLabel int64
  • کلیدهای نظارت شده (مشاهده as_supervised doc ): ('image', 'label')

  • نقل قول :

@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

controlled_noisy_web_labels/mini_imagenet_red (پیکربندی پیش فرض)

  • حجم مجموعه داده : 1.19 GiB

  • تقسیم ها :

شکاف مثال ها
'train_00' 50000
'train_05' 50000
'train_10' 50000
'train_15' 50000
'train_20' 50000
'train_30' 49,985
'train_40' 50,010
'train_50' 49,962
'train_60' 50000
'train_80' 50008
'validation' 5000

تجسم

controlled_noisy_web_labels/mini_imagenet_blue

  • حجم مجموعه داده : 1.39 GiB

  • تقسیم ها :

شکاف مثال ها
'train_00' 60000
'train_05' 60000
'train_10' 60000
'train_15' 60000
'train_20' 60000
'train_30' 60000
'train_40' 60000
'train_50' 60000
'train_60' 60000
'train_80' 60000
'validation' 5000

تجسم