- Açıklama :
Kontrollü Gürültülü Web Etiketleri, her görüntünün Google Bulut Veri Etiketleme Hizmeti tarafından 3-5 etiketleme uzmanı tarafından dikkatlice eklendiği, yaklaşık 212.000 URL'den oluşan bir resim koleksiyonudur. Bu ek açıklamaları kullanarak, web'den kontrollü gerçek dünya etiket gürültüsünün ilk ölçütünü oluşturur.
Red Mini-ImageNet (gerçek dünya web gürültüsü) ve Blue Mini-ImageNet yapılandırmalarını sağlıyoruz: - kontrollü_noisy_web_labels/mini_imagenet_red - kontrollü_noisy_web_labels/mini_imagenet_blue
Her yapılandırma, %0'dan %80'e kadar on gürültü düzeyine sahip on varyant içerir. Doğrulama setinin temiz etiketleri vardır ve tüm gürültülü eğitim setlerinde paylaşılır. Bu nedenle, her yapılandırma aşağıdaki bölmelere sahiptir:
- tren_00
- tren_05
- tren_10
- tren_15
- tren_20
- tren_30
- tren_40
- tren_50
- tren_60
- tren_80
- doğrulama
Veri kümesi oluşturma ve analizi için ayrıntılar makalede bulunabilir. Tüm resimler 84x84 çözünürlüğe yeniden boyutlandırılır.
Ana sayfa : https://google.github.io/controll-noisy-web-labels/index.html
Kaynak kodu :
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
1.83 MiB
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine
download_config.manual_dir
gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
):
Bu verileri manuel olarak indirmek için bir kullanıcının aşağıdaki işlemleri gerçekleştirmesi gerekir:
- Bölmeleri ve ek açıklamaları buradan indirin
- dataset_no_images.zip dosyasını dataset_no_images/ konumuna çıkarın.
- dataset_no_images/mini-imagenet-annotations.json içindeki tüm görüntüleri dataset_no_images/noisy_images/ adlı yeni bir klasöre indirin. Çıktı dosya adı, mini-imagenet-annotations.json'da sağlanan resim kimliğiyle aynı olmalıdır. Örneğin, "image/id": "5922767e5677aef4" ise, indirilen resim dataset_no_images/noisy_images/5922767e5677aef4.jpg olmalıdır. 4. https://image-net.org/download-images adresinden kaydolun ve ILSVRC2012_img_train.tar ile ILSVRC2012_img_val.tar'ı indirin.
Ortaya çıkan dizin yapısı daha sonra TFDS tarafından işlenebilir:
- dataset_no_images/
- mini görüntü/
- class_name.txt
- bölmek/
- blue_noise_nl_0.0
- blue_noise_nl_0.1
- ...
- red_noise_nl_0.0
- red_noise_nl_0.1
- ...
- temiz doğrulama
- mini-imagenet-annotations.json
- ILSVRC2012_img_train.tar
- ILSVRC2012_img_val.tar
gürültülü_görüntüler/
- 5922767e5677aef4.jpg
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
Özellik yapısı :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
İD | Metin | sicim | ||
resim | resim | (Yok, Yok, 3) | uint8 | |
temiz | tensör | bool | ||
etiket | SınıfEtiketi | int64 |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):('image', 'label')
Alıntı :
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
kontrollü_noisy_web_labels/mini_imagenet_red (varsayılan yapılandırma)
Veri kümesi boyutu :
1.19 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'train_00' | 50.000 |
'train_05' | 50.000 |
'train_10' | 50.000 |
'train_15' | 50.000 |
'train_20' | 50.000 |
'train_30' | 49.985 |
'train_40' | 50.010 |
'train_50' | 49.962 |
'train_60' | 50.000 |
'train_80' | 50.008 |
'validation' | 5.000 |
- Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):
kontrollü_noisy_web_labels/mini_imagenet_blue
Veri kümesi boyutu :
1.39 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'train_00' | 60.000 |
'train_05' | 60.000 |
'train_10' | 60.000 |
'train_15' | 60.000 |
'train_20' | 60.000 |
'train_30' | 60.000 |
'train_40' | 60.000 |
'train_50' | 60.000 |
'train_60' | 60.000 |
'train_80' | 60.000 |
'validation' | 5.000 |
- Şekil ( tfds.show_examples ):
- Örnekler ( tfds.as_dataframe ):