kontrollü_noisy_web_labels

  • Açıklama :

Kontrollü Gürültülü Web Etiketleri, her görüntünün Google Bulut Veri Etiketleme Hizmeti tarafından 3-5 etiketleme uzmanı tarafından dikkatlice eklendiği, yaklaşık 212.000 URL'den oluşan bir resim koleksiyonudur. Bu ek açıklamaları kullanarak, web'den kontrollü gerçek dünya etiket gürültüsünün ilk ölçütünü oluşturur.

Red Mini-ImageNet (gerçek dünya web gürültüsü) ve Blue Mini-ImageNet yapılandırmalarını sağlıyoruz: - kontrollü_noisy_web_labels/mini_imagenet_red - kontrollü_noisy_web_labels/mini_imagenet_blue

Her yapılandırma, %0'dan %80'e kadar on gürültü düzeyine sahip on varyant içerir. Doğrulama setinin temiz etiketleri vardır ve tüm gürültülü eğitim setlerinde paylaşılır. Bu nedenle, her yapılandırma aşağıdaki bölmelere sahiptir:

  • tren_00
  • tren_05
  • tren_10
  • tren_15
  • tren_20
  • tren_30
  • tren_40
  • tren_50
  • tren_60
  • tren_80
  • doğrulama

Veri kümesi oluşturma ve analizi için ayrıntılar makalede bulunabilir. Tüm resimler 84x84 çözünürlüğe yeniden boyutlandırılır.

  1. Bölmeleri ve ek açıklamaları buradan indirin
  2. dataset_no_images.zip dosyasını dataset_no_images/ konumuna çıkarın.
  3. dataset_no_images/mini-imagenet-annotations.json içindeki tüm görüntüleri dataset_no_images/noisy_images/ adlı yeni bir klasöre indirin. Çıktı dosya adı, mini-imagenet-annotations.json'da sağlanan resim kimliğiyle aynı olmalıdır. Örneğin, "image/id": "5922767e5677aef4" ise, indirilen resim dataset_no_images/noisy_images/5922767e5677aef4.jpg olmalıdır. 4. https://image-net.org/download-images adresinden kaydolun ve ILSVRC2012_img_train.tar ile ILSVRC2012_img_val.tar'ı indirin.

Ortaya çıkan dizin yapısı daha sonra TFDS tarafından işlenebilir:

  • dataset_no_images/
    • mini görüntü/
    • class_name.txt
    • bölmek/
      • blue_noise_nl_0.0
      • blue_noise_nl_0.1
      • ...
      • red_noise_nl_0.0
      • red_noise_nl_0.1
      • ...
      • temiz doğrulama
    • mini-imagenet-annotations.json
  • ILSVRC2012_img_train.tar
  • ILSVRC2012_img_val.tar
  • gürültülü_görüntüler/

    • 5922767e5677aef4.jpg
  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • Özellik yapısı :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
İD Metin sicim
resim resim (Yok, Yok, 3) uint8
temiz tensör bool
etiket SınıfEtiketi int64
@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

kontrollü_noisy_web_labels/mini_imagenet_red (varsayılan yapılandırma)

  • Veri kümesi boyutu : 1.19 GiB

  • bölmeler :

Bölmek örnekler
'train_00' 50.000
'train_05' 50.000
'train_10' 50.000
'train_15' 50.000
'train_20' 50.000
'train_30' 49.985
'train_40' 50.010
'train_50' 49.962
'train_60' 50.000
'train_80' 50.008
'validation' 5.000

görselleştirme

kontrollü_noisy_web_labels/mini_imagenet_blue

  • Veri kümesi boyutu : 1.39 GiB

  • bölmeler :

Bölmek örnekler
'train_00' 60.000
'train_05' 60.000
'train_10' 60.000
'train_15' 60.000
'train_20' 60.000
'train_30' 60.000
'train_40' 60.000
'train_50' 60.000
'train_60' 60.000
'train_80' 60.000
'validation' 5.000

görselleştirme