- Descripción :
Controlled Noisy Web Labels es una colección de aproximadamente 212 000 URL de imágenes en las que cada imagen es anotada cuidadosamente por 3 a 5 profesionales de etiquetado del Servicio de etiquetado de datos de Google Cloud. Usando estas anotaciones, establece el primer punto de referencia de ruido de etiqueta controlado en el mundo real desde la web.
Proporcionamos las configuraciones Red Mini-ImageNet (ruido web del mundo real) y Blue Mini-ImageNet: - etiquetas_web_noisy_controladas/mini_imagen_red - etiquetas_web_ruido_controladas/mini_imagen_azul
Cada configuración contiene diez variantes con diez niveles de ruido p de 0% a 80%. El conjunto de validación tiene etiquetas limpias y se comparte entre todos los conjuntos de entrenamiento ruidosos. Por lo tanto, cada configuración tiene las siguientes divisiones:
- tren_00
- tren_05
- tren_10
- tren_15
- tren_20
- tren_30
- tren_40
- tren_50
- tren_60
- tren_80
- validación
Los detalles para la construcción y el análisis del conjunto de datos se pueden encontrar en el documento. Todas las imágenes se redimensionan a una resolución de 84x84.
Página de inicio : https://google.github.io/controlled-noisy-web-labels/index.html
Código fuente :
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de la descarga :
1.83 MiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
Para descargar manualmente estos datos, un usuario debe realizar las siguientes operaciones:
- Descargue las divisiones y las anotaciones aquí
- Extraiga dataset_no_images.zip a dataset_no_images/.
- Descargue todas las imágenes en dataset_no_images/mini-imagenet-annotations.json en una nueva carpeta llamada dataset_no_images/noisy_images/. El nombre del archivo de salida debe coincidir con la identificación de la imagen proporcionada en mini-imagenet-annotations.json. Por ejemplo, si "image/id": "5922767e5677aef4", la imagen descargada debe ser dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4. Regístrese en https://image-net.org/download-images y descargue ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar.
La estructura de directorio resultante puede ser procesada por TFDS:
- dataset_no_images/
- mini-imagenet/
- nombre_clase.txt
- separar/
- ruido_azul_nl_0.0
- ruido_azul_nl_0.1
- ...
- ruido_rojo_nl_0.0
- ruido_rojo_nl_0.1
- ...
- validación_limpia
- mini-imagenet-anotaciones.json
- ILSVRC2012_img_tren.tar
- ILSVRC2012_img_val.tar
imágenes_ruidosas/
- 5922767e5677aef4.jpg
Almacenamiento automático en caché ( documentación ): No
Estructura de características :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
identificación | Texto | cuerda | ||
imagen | Imagen | (Ninguno, Ninguno, 3) | uint8 | |
esta limpio | Tensor | bool | ||
etiqueta | Etiqueta de clase | int64 |
Claves supervisadas (Ver como_documento
as_supervised
):('image', 'label')
Cita :
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
control_noisy_web_labels/mini_imagenet_red (configuración predeterminada)
Tamaño del conjunto de datos :
1.19 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'train_00' | 50,000 |
'train_05' | 50,000 |
'train_10' | 50,000 |
'train_15' | 50,000 |
'train_20' | 50,000 |
'train_30' | 49,985 |
'train_40' | 50,010 |
'train_50' | 49,962 |
'train_60' | 50,000 |
'train_80' | 50,008 |
'validation' | 5,000 |
- Figura ( tfds.show_examples ):
- Ejemplos ( tfds.as_dataframe ):
etiquetas_web_ruidosas_controladas/mini_imagen_azul
Tamaño del conjunto de datos :
1.39 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'train_00' | 60.000 |
'train_05' | 60.000 |
'train_10' | 60.000 |
'train_15' | 60.000 |
'train_20' | 60.000 |
'train_30' | 60.000 |
'train_40' | 60.000 |
'train_50' | 60.000 |
'train_60' | 60.000 |
'train_80' | 60.000 |
'validation' | 5,000 |
- Figura ( tfds.show_examples ):
- Ejemplos ( tfds.as_dataframe ):