- Descrizione :
Controlled Noisy Web Labels è una raccolta di ~212.000 URL di immagini in cui ogni immagine è accuratamente annotata da 3-5 professionisti dell'etichettatura tramite Google Cloud Data Labeling Service. Usando queste annotazioni, stabilisce il primo punto di riferimento del rumore dell'etichetta del mondo reale controllato dal web.
Forniamo le configurazioni Red Mini-ImageNet (rumore web reale) e Blue Mini-ImageNet: - controlled_noisy_web_labels/mini_imagenet_red - controlled_noisy_web_labels/mini_imagenet_blue
Ogni configurazione contiene dieci varianti con dieci livelli di rumore p dallo 0% all'80%. Il set di convalida ha etichette pulite ed è condiviso tra tutti i set di training rumorosi. Pertanto, ogni configurazione ha le seguenti divisioni:
- treno_00
- treno_05
- treno_10
- treno_15
- treno_20
- treno_30
- treno_40
- treno_50
- treno_60
- treno_80
- convalida
I dettagli per la costruzione e l'analisi del set di dati sono disponibili nel documento. Tutte le immagini sono ridimensionate alla risoluzione 84x84.
Home page : https://google.github.io/controllato-noisy-web-labels/index.html
Codice sorgente :
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensione del download :
1.83 MiB
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir
(il valore predefinito è~/tensorflow_datasets/downloads/manual/
):
Per scaricare manualmente questi dati, un utente deve eseguire le seguenti operazioni:
- Scarica qui gli spaccati e le annotazioni
- Estrai dataset_no_images.zip in dataset_no_images/.
- Scarica tutte le immagini in dataset_no_images/mini-imagenet-annotations.json in una nuova cartella denominata dataset_no_images/noisy_images/. Il nome del file di output deve corrispondere all'ID immagine fornito in mini-imagenet-annotations.json. Ad esempio, se "image/id": "5922767e5677aef4", l'immagine scaricata dovrebbe essere dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4.Registrati su https://image-net.org/download-images e scarica ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar.
La struttura di directory risultante può quindi essere elaborata da TFDS:
- dataset_no_images/
- mini-imagenet/
- nome_classe.txt
- diviso/
- blue_noise_nl_0.0
- blue_noise_nl_0.1
- ...
- red_noise_nl_0.0
- red_noise_nl_0.1
- ...
- clean_validation
- mini-imagenet-annotations.json
- ILSVRC2012_img_train.tar
- ILSVRC2012_img_val.tar
immagini_rumorose/
- 5922767e5677aef4.jpg
Cache automatica ( documentazione ): No
Struttura delle caratteristiche :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
id | Testo | corda | ||
Immagine | Immagine | (Nessuno, Nessuno, 3) | uint8 | |
è pulito | Tensore | bool | ||
etichetta | ClassLabel | int64 |
Chiavi supervisionate (vedi
as_supervised
doc ):('image', 'label')
Citazione :
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
controlled_noisy_web_labels/mini_imagenet_red (configurazione predefinita)
Dimensione del set di dati :
1.19 GiB
Divisioni :
Diviso | Esempi |
---|---|
'train_00' | 50.000 |
'train_05' | 50.000 |
'train_10' | 50.000 |
'train_15' | 50.000 |
'train_20' | 50.000 |
'train_30' | 49.985 |
'train_40' | 50.010 |
'train_50' | 49.962 |
'train_60' | 50.000 |
'train_80' | 50.008 |
'validation' | 5.000 |
- Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):
controlled_noisy_web_labels/mini_imagenet_blue
Dimensione del set di dati :
1.39 GiB
Divisioni :
Diviso | Esempi |
---|---|
'train_00' | 60.000 |
'train_05' | 60.000 |
'train_10' | 60.000 |
'train_15' | 60.000 |
'train_20' | 60.000 |
'train_30' | 60.000 |
'train_40' | 60.000 |
'train_50' | 60.000 |
'train_60' | 60.000 |
'train_80' | 60.000 |
'validation' | 5.000 |
- Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):