- الوصف :
ملصقات الويب المزعجة الخاضعة للرقابة عبارة عن مجموعة من 212000 عنوان URL تقريبًا للصور يتم فيها شرح كل صورة بعناية بواسطة 3-5 متخصصين في وضع العلامات بواسطة خدمة تصنيف البيانات السحابية من Google. باستخدام هذه التعليقات التوضيحية ، فإنه ينشئ المعيار الأول للتحكم في ضوضاء التسمية في العالم الحقيقي من الويب.
نحن نقدم Red Mini-ImageNet (ضجيج الويب في العالم الحقيقي) وتكوينات Blue Mini-ImageNet: - Controll_noisy_web_labels / mini_imagenet_red - Controll_noisy_web_labels / mini_imagenet_blue
يحتوي كل تكوين على عشرة متغيرات مع عشرة مستويات ضوضاء p من 0٪ إلى 80٪. تحتوي مجموعة التحقق من الصحة على تسميات نظيفة وتتم مشاركتها عبر جميع مجموعات التدريب الصاخبة. لذلك ، يحتوي كل تكوين على الانقسامات التالية:
- القطار_00
- القطار_05
- القطار_10
- القطار_15
- القطار_20
- القطار_30
- القطار_40
- القطار_50
- القطار_60
- القطار_80
- تصديق
يمكن العثور على تفاصيل إنشاء مجموعة البيانات وتحليلها في الورقة. تم تغيير حجم جميع الصور إلى دقة 84x84.
الصفحة الرئيسية : https://google.github.io/controlled-noisy-web-labels/index.html
كود المصدر :
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التحميل :
1.83 MiB
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعدادات الافتراضية على~/tensorflow_datasets/downloads/manual/
):
لتنزيل هذه البيانات يدويًا ، يجب على المستخدم إجراء العمليات التالية:
- قم بتنزيل التقسيمات والتعليقات التوضيحية هنا
- استخراج dataset_no_images.zip إلى dataset_no_images /.
- قم بتنزيل جميع الصور في dataset_no_images / mini-imagenet-annotations.json في مجلد جديد باسم dataset_no_images / noisy_images /. يجب أن يتوافق اسم الملف الناتج مع معرف الصورة المقدم في mini-imagenet-annotations.json. على سبيل المثال ، إذا كانت "image / id": "5922767e5677aef4" ، فيجب أن تكون الصورة التي تم تنزيلها dataset_no_images / noisy_images / 5922767e5677aef4.jpg. 4- سجل على https://image-net.org/download-images وقم بتنزيل ILSVRC2012_img_train.tar و ILSVRC2012_img_val.tar.
يمكن بعد ذلك معالجة بنية الدليل الناتجة بواسطة TFDS:
- dataset_no_images /
- صور مصغرة /
- class_name.txt
- ينقسم/
- blue_noise_nl_0.0
- blue_noise_nl_0.1.1.apk
- ...
- red_noise_nl_0.0
- red_noise_nl_0.1.1.apk
- ...
- clean_validation
- mini-imagenet-annotations.json
- ILSVRC2012_img_train.tar
- ILSVRC2012_img_val.tar
صور_صاخبة /
- 5922767e5677aef4.jpg
التخزين المؤقت التلقائي ( التوثيق ): لا
هيكل الميزة :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
هوية شخصية | نص | سلسلة | ||
صورة | صورة | (لا شيء ، لا شيء ، 3) | uint8 | |
نظيف | موتر | منطقي | ||
ضع الكلمة المناسبة | ClassLabel | int64 |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('image', 'label')
الاقتباس :
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
control_noisy_web_labels / mini_imagenet_red (التكوين الافتراضي)
حجم مجموعة البيانات :
1.19 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train_00' | 50000 |
'train_05' | 50000 |
'train_10' | 50000 |
'train_15' | 50000 |
'train_20' | 50000 |
'train_30' | 49985 |
'train_40' | 50،010 |
'train_50' | 49962 |
'train_60' | 50000 |
'train_80' | 50.008 |
'validation' | 5000 |
- الشكل ( tfds.show_examples ):
- أمثلة ( tfds.as_dataframe ):
مراقبة_noisy_web_labels / mini_imagenet_blue
حجم مجموعة البيانات :
1.39 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train_00' | 60.000 |
'train_05' | 60.000 |
'train_10' | 60.000 |
'train_15' | 60.000 |
'train_20' | 60.000 |
'train_30' | 60.000 |
'train_40' | 60.000 |
'train_50' | 60.000 |
'train_60' | 60.000 |
'train_80' | 60.000 |
'validation' | 5000 |
- الشكل ( tfds.show_examples ):
- أمثلة ( tfds.as_dataframe ):