नियंत्रित_शोर_वेब_लेबल

  • विवरण :

नियंत्रित नॉज़ी वेब लेबल छवियों के लिए ~212,000 URL का एक संग्रह है जिसमें प्रत्येक छवि को Google क्लाउड डेटा लेबलिंग सेवा द्वारा 3-5 लेबलिंग पेशेवरों द्वारा सावधानीपूर्वक एनोटेट किया गया है। इन एनोटेशन का उपयोग करते हुए, यह वेब से नियंत्रित वास्तविक दुनिया लेबल शोर का पहला बेंचमार्क स्थापित करता है।

हम रेड मिनी-इमेजनेट (वास्तविक दुनिया का वेब शोर) और ब्लू मिनी-इमेजनेट कॉन्फ़िगरेशन प्रदान करते हैं: - नियंत्रित_नोइज़_वेब_लेबल/मिनी_इमेजनेट_रेड - नियंत्रित_नोइज़_वेब_लेबल/मिनी_इमेजनेट_ब्लू

प्रत्येक कॉन्फ़िगरेशन में दस शोर-स्तर पी के साथ दस वेरिएंट होते हैं जो 0% से 80% तक होते हैं। सत्यापन सेट में स्वच्छ लेबल होते हैं और सभी शोर प्रशिक्षण सेटों में साझा किए जाते हैं। इसलिए, प्रत्येक कॉन्फ़िगरेशन में निम्न विभाजन होते हैं:

  • ट्रेन_00
  • ट्रेन_05
  • ट्रेन_10
  • ट्रेन_15
  • ट्रेन_20
  • ट्रेन_30
  • ट्रेन_40
  • ट्रेन_50
  • ट्रेन_60
  • ट्रेन_80
  • मान्यता

डेटासेट निर्माण और विश्लेषण का विवरण पेपर में पाया जा सकता है। सभी छवियों का आकार 84x84 रिज़ॉल्यूशन में बदल दिया गया है।

  • मुखपृष्ठ : https://google.github.io/controlled-noisy-web-labels/index.html

  • स्रोत कोड : tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels

  • संस्करण :

    • 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
  • डाउनलोड आकार : 1.83 MiB

  • मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:
    इस डेटा को मैन्युअल रूप से डाउनलोड करने के लिए, उपयोगकर्ता को निम्नलिखित कार्य करने होंगे:

  1. विभाजन और एनोटेशन यहाँ से डाउनलोड करें
  2. डेटासेट_no_images.zip को डेटासेट_no_images/ में निकालें।
  3. डेटासेट_no_images/mini-imagenet-annotations.json में सभी छवियों को डेटासेट_no_images/noisy_images/ नामक एक नए फ़ोल्डर में डाउनलोड करें। आउटपुट फ़ाइलनाम को mini-imagenet-annotations.json में प्रदान की गई छवि आईडी से मेल खाना चाहिए। उदाहरण के लिए, यदि "छवि/आईडी": "5922767e5677aef4", तो डाउनलोड की गई छवि डेटासेट_no_images/noisy_images/5922767e5677aef4.jpg होनी चाहिए। 4. https://image-net.org/download-images पर रजिस्टर करें और ILSVRC2012_img_train.tar और ILSVRC2012_img_val.tar डाउनलोड करें।

परिणामी निर्देशिका संरचना को तब TFDS द्वारा संसाधित किया जा सकता है:

  • डेटासेट_no_images/
    • मिनी-इमेजनेट/
    • class_name.txt
    • विभाजित करना/
      • नीला_शोर_nl_0.0
      • नीला_शोर_nl_0.1
      • ...
      • लाल_शोर_nl_0.0
      • लाल_शोर_nl_0.1
      • ...
      • clean_validation
    • mini-imagenet-annotations.json
  • आईएलएसवीआरसी2012_img_train.tar
  • ILSVRC2012_img_val.tar
  • शोर_तस्वीरें/

    • 5922767e5677aef4.jpg
  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • फ़ीचर संरचना :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
पहचान मूलपाठ डोरी
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8
साफ है टेन्सर बूल
लेबल क्लासलेबल int64
@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

control_noisy_web_labels/mini_imagenet_red (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • डेटासेट का आकार : 1.19 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train_00' 50,000
'train_05' 50,000
'train_10' 50,000
'train_15' 50,000
'train_20' 50,000
'train_30' 49,985
'train_40' 50,010
'train_50' 49,962
'train_60' 50,000
'train_80' 50,008
'validation' 5,000

VISUALIZATION

controled_noisy_web_labels/mini_imagenet_blue

  • डेटासेट का आकार : 1.39 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train_00' 60,000
'train_05' 60,000
'train_10' 60,000
'train_15' 60,000
'train_20' 60,000
'train_30' 60,000
'train_40' 60,000
'train_50' 60,000
'train_60' 60,000
'train_80' 60,000
'validation' 5,000

VISUALIZATION