تسيطر عليها_noisy_web_labels

  • الوصف :

ملصقات الويب المزعجة الخاضعة للرقابة عبارة عن مجموعة من 212000 عنوان URL تقريبًا للصور يتم فيها شرح كل صورة بعناية بواسطة 3-5 متخصصين في وضع العلامات بواسطة خدمة تصنيف البيانات السحابية من Google. باستخدام هذه التعليقات التوضيحية ، فإنه ينشئ المعيار الأول للتحكم في ضوضاء التسمية في العالم الحقيقي من الويب.

نحن نقدم Red Mini-ImageNet (ضجيج الويب في العالم الحقيقي) وتكوينات Blue Mini-ImageNet: - Controll_noisy_web_labels / mini_imagenet_red - Controll_noisy_web_labels / mini_imagenet_blue

يحتوي كل تكوين على عشرة متغيرات مع عشرة مستويات ضوضاء p من 0٪ إلى 80٪. تحتوي مجموعة التحقق من الصحة على تسميات نظيفة وتتم مشاركتها عبر جميع مجموعات التدريب الصاخبة. لذلك ، يحتوي كل تكوين على الانقسامات التالية:

  • القطار_00
  • القطار_05
  • القطار_10
  • القطار_15
  • القطار_20
  • القطار_30
  • القطار_40
  • القطار_50
  • القطار_60
  • القطار_80
  • تصديق

يمكن العثور على تفاصيل إنشاء مجموعة البيانات وتحليلها في الورقة. تم تغيير حجم جميع الصور إلى دقة 84x84.

  1. قم بتنزيل التقسيمات والتعليقات التوضيحية هنا
  2. استخراج dataset_no_images.zip إلى dataset_no_images /.
  3. قم بتنزيل جميع الصور في dataset_no_images / mini-imagenet-annotations.json في مجلد جديد باسم dataset_no_images / noisy_images /. يجب أن يتوافق اسم الملف الناتج مع معرف الصورة المقدم في mini-imagenet-annotations.json. على سبيل المثال ، إذا كانت "image / id": "5922767e5677aef4" ، فيجب أن تكون الصورة التي تم تنزيلها dataset_no_images / noisy_images / 5922767e5677aef4.jpg. 4- سجل على https://image-net.org/download-images وقم بتنزيل ILSVRC2012_img_train.tar و ILSVRC2012_img_val.tar.

يمكن بعد ذلك معالجة بنية الدليل الناتجة بواسطة TFDS:

  • dataset_no_images /
    • صور مصغرة /
    • class_name.txt
    • ينقسم/
      • blue_noise_nl_0.0
      • blue_noise_nl_0.1.1.apk
      • ...
      • red_noise_nl_0.0
      • red_noise_nl_0.1.1.apk
      • ...
      • clean_validation
    • mini-imagenet-annotations.json
  • ILSVRC2012_img_train.tar
  • ILSVRC2012_img_val.tar
  • صور_صاخبة /

    • 5922767e5677aef4.jpg
  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • هيكل الميزة :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
هوية شخصية نص سلسلة
صورة صورة (لا شيء ، لا شيء ، 3) uint8
نظيف موتر منطقي
ضع الكلمة المناسبة ClassLabel int64
@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

control_noisy_web_labels / mini_imagenet_red (التكوين الافتراضي)

  • حجم مجموعة البيانات : 1.19 GiB

  • الانقسامات :

انشق، مزق أمثلة
'train_00' 50000
'train_05' 50000
'train_10' 50000
'train_15' 50000
'train_20' 50000
'train_30' 49985
'train_40' 50،010
'train_50' 49962
'train_60' 50000
'train_80' 50.008
'validation' 5000

التصور

مراقبة_noisy_web_labels / mini_imagenet_blue

  • حجم مجموعة البيانات : 1.39 GiB

  • الانقسامات :

انشق، مزق أمثلة
'train_00' 60.000
'train_05' 60.000
'train_10' 60.000
'train_15' 60.000
'train_20' 60.000
'train_30' 60.000
'train_40' 60.000
'train_50' 60.000
'train_60' 60.000
'train_80' 60.000
'validation' 5000

التصور