- Descriptif :
Controlled Noisy Web Labels est une collection d'environ 212 000 URL vers des images dans lesquelles chaque image est soigneusement annotée par 3 à 5 professionnels de l'étiquetage par Google Cloud Data Labeling Service. À l'aide de ces annotations, il établit la première référence de bruit d'étiquette contrôlé dans le monde réel à partir du Web.
Nous fournissons les configurations Red Mini-ImageNet (bruit web réel) et Blue Mini-ImageNet :
Chaque configuration contient dix variantes avec dix niveaux de bruit p de 0% à 80%. L'ensemble de validation a des étiquettes propres et est partagé entre tous les ensembles d'apprentissage bruyants. Par conséquent, chaque configuration comporte les divisions suivantes :
- train_00
- train_05
- train_10
- train_15
- train_20
- train_30
- train_40
- train_50
- train_60
- train_80
- validation
Les détails de la construction et de l'analyse des ensembles de données peuvent être trouvés dans l'article. Toutes les images sont redimensionnées à une résolution de 84x84.
Page d' accueil : https://google.github.io/controller-noisy-web-labels/index.html
Code source :
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
1.83 MiB
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Afin de télécharger manuellement ces données, un utilisateur doit effectuer les opérations suivantes :
- Téléchargez les répartitions et les annotations ici
- Extrayez dataset_no_images.zip vers dataset_no_images/.
- Téléchargez toutes les images de dataset_no_images/mini-imagenet-annotations.json dans un nouveau dossier nommé dataset_no_images/noisy_images/. Le nom du fichier de sortie doit correspondre à l'ID d'image fourni dans mini-imagenet-annotations.json. Par exemple, si "image/id": "5922767e5677aef4", l'image téléchargée doit être dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4.Inscrivez-vous sur https://image-net.org/download-images et téléchargez ILSVRC2012_img_train.tar et ILSVRC2012_img_val.tar.
La structure de répertoire résultante peut ensuite être traitée par TFDS :
- dataset_no_images/
- mini-imagenet/
- nom_classe.txt
- diviser/
- blue_noise_nl_0.0
- blue_noise_nl_0.1
- ...
- red_noise_nl_0.0
- red_noise_nl_0.1
- ...
- clean_validation
- mini-imagenet-annotations.json
- ILSVRC2012_img_train.tar
- ILSVRC2012_img_val.tar
images_bruyantes/
- 5922767e5677aef4.jpg
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
identifiant | Texte | chaîne de caractères | ||
image | Image | (Aucun, Aucun, 3) | uint8 | |
est propre | Tenseur | bourdonner | ||
étiquette | Étiquette de classe | int64 |
Clés supervisées (Voir
as_supervised
doc ):('image', 'label')
Citation :
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
contrôlée_noisy_web_labels/mini_imagenet_red (configuration par défaut)
Taille du jeu de données :
1.19 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'train_00' | 50 000 |
'train_05' | 50 000 |
'train_10' | 50 000 |
'train_15' | 50 000 |
'train_20' | 50 000 |
'train_30' | 49 985 |
'train_40' | 50 010 |
'train_50' | 49 962 |
'train_60' | 50 000 |
'train_80' | 50 008 |
'validation' | 5 000 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
contrôlée_noisy_web_labels/mini_imagenet_blue
Taille du jeu de données :
1.39 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'train_00' | 60 000 |
'train_05' | 60 000 |
'train_10' | 60 000 |
'train_15' | 60 000 |
'train_20' | 60 000 |
'train_30' | 60 000 |
'train_40' | 60 000 |
'train_50' | 60 000 |
'train_60' | 60 000 |
'train_80' | 60 000 |
'validation' | 5 000 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):