controllato_noisy_web_labels

  • Descrizione :

Controlled Noisy Web Labels è una raccolta di ~212.000 URL di immagini in cui ogni immagine è accuratamente annotata da 3-5 professionisti dell'etichettatura tramite Google Cloud Data Labeling Service. Usando queste annotazioni, stabilisce il primo punto di riferimento del rumore dell'etichetta del mondo reale controllato dal web.

Forniamo le configurazioni Red Mini-ImageNet (rumore web reale) e Blue Mini-ImageNet: - controlled_noisy_web_labels/mini_imagenet_red - controlled_noisy_web_labels/mini_imagenet_blue

Ogni configurazione contiene dieci varianti con dieci livelli di rumore p dallo 0% all'80%. Il set di convalida ha etichette pulite ed è condiviso tra tutti i set di training rumorosi. Pertanto, ogni configurazione ha le seguenti divisioni:

  • treno_00
  • treno_05
  • treno_10
  • treno_15
  • treno_20
  • treno_30
  • treno_40
  • treno_50
  • treno_60
  • treno_80
  • convalida

I dettagli per la costruzione e l'analisi del set di dati sono disponibili nel documento. Tutte le immagini sono ridimensionate alla risoluzione 84x84.

  1. Scarica qui gli spaccati e le annotazioni
  2. Estrai dataset_no_images.zip in dataset_no_images/.
  3. Scarica tutte le immagini in dataset_no_images/mini-imagenet-annotations.json in una nuova cartella denominata dataset_no_images/noisy_images/. Il nome del file di output deve corrispondere all'ID immagine fornito in mini-imagenet-annotations.json. Ad esempio, se "image/id": "5922767e5677aef4", l'immagine scaricata dovrebbe essere dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4.Registrati su https://image-net.org/download-images e scarica ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar.

La struttura di directory risultante può quindi essere elaborata da TFDS:

  • dataset_no_images/
    • mini-imagenet/
    • nome_classe.txt
    • diviso/
      • blue_noise_nl_0.0
      • blue_noise_nl_0.1
      • ...
      • red_noise_nl_0.0
      • red_noise_nl_0.1
      • ...
      • clean_validation
    • mini-imagenet-annotations.json
  • ILSVRC2012_img_train.tar
  • ILSVRC2012_img_val.tar
  • immagini_rumorose/

    • 5922767e5677aef4.jpg
  • Cache automatica ( documentazione ): No

  • Struttura delle caratteristiche :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
id Testo corda
Immagine Immagine (Nessuno, Nessuno, 3) uint8
è pulito Tensore bool
etichetta ClassLabel int64
@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

controlled_noisy_web_labels/mini_imagenet_red (configurazione predefinita)

  • Dimensione del set di dati : 1.19 GiB

  • Divisioni :

Diviso Esempi
'train_00' 50.000
'train_05' 50.000
'train_10' 50.000
'train_15' 50.000
'train_20' 50.000
'train_30' 49.985
'train_40' 50.010
'train_50' 49.962
'train_60' 50.000
'train_80' 50.008
'validation' 5.000

Visualizzazione

controlled_noisy_web_labels/mini_imagenet_blue

  • Dimensione del set di dati : 1.39 GiB

  • Divisioni :

Diviso Esempi
'train_00' 60.000
'train_05' 60.000
'train_10' 60.000
'train_15' 60.000
'train_20' 60.000
'train_30' 60.000
'train_40' 60.000
'train_50' 60.000
'train_60' 60.000
'train_80' 60.000
'validation' 5.000

Visualizzazione