- Descrição :
Controlled Noisy Web Labels é uma coleção de aproximadamente 212.000 URLs para imagens em que cada imagem é cuidadosamente anotada por 3 a 5 profissionais de rotulagem pelo Google Cloud Data Labeling Service. Usando essas anotações, ele estabelece a primeira referência de ruído de rótulo do mundo real controlado da web.
Fornecemos as configurações Red Mini-ImageNet (ruído da web do mundo real) e Blue Mini-ImageNet: - controlado_noisy_web_labels/mini_imagenet_red - controlado_noisy_web_labels/mini_imagenet_blue
Cada configuração contém dez variantes com dez níveis de ruído p de 0% a 80%. O conjunto de validação tem rótulos limpos e é compartilhado entre todos os conjuntos de treinamento ruidosos. Portanto, cada configuração tem as seguintes divisões:
- train_00
- train_05
- trem_10
- trem_15
- train_20
- train_30
- train_40
- train_50
- train_60
- train_80
- validação
Os detalhes para a construção e análise do conjunto de dados podem ser encontrados no artigo. Todas as imagens são redimensionadas para resolução 84x84.
Página inicial : https://google.github.io/controlado-noisy-web-labels/index.html
Código-fonte :
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
1.83 MiB
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Para baixar manualmente esses dados, o usuário deve executar as seguintes operações:
- Baixe as divisões e as anotações aqui
- Extraia dataset_no_images.zip para dataset_no_images/.
- Baixe todas as imagens em dataset_no_images/mini-imagenet-annotations.json em uma nova pasta chamada dataset_no_images/noisy_images/. O nome do arquivo de saída deve corresponder ao ID da imagem fornecido em mini-imagenet-annotations.json. Por exemplo, se "image/id": "5922767e5677aef4", a imagem baixada deve ser dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4.Registre-se em https://image-net.org/download-images e baixe ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar.
A estrutura de diretório resultante pode então ser processada pelo TFDS:
- dataset_no_images/
- mini-imagenet/
- class_name.txt
- dividir/
- blue_noise_nl_0.0
- blue_noise_nl_0.1
- ...
- red_noise_nl_0.0
- red_noise_nl_0.1
- ...
- clean_validation
- mini-imagenet-annotations.json
- ILSVRC2012_img_train.tar
- ILSVRC2012_img_val.tar
imagens_ruidosas/
- 5922767e5677aef4.jpg
Armazenado em cache automaticamente ( documentação ): Não
Estrutura de recursos :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- Documentação do recurso :
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
Eu iria | Texto | corda | ||
imagem | Imagem | (Nenhuma, Nenhuma, 3) | uint8 | |
está limpo | tensor | bool | ||
etiqueta | ClassLabel | int64 |
Chaves supervisionadas (Consulte
as_supervised
doc ):('image', 'label')
Citação :
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
controlado_noisy_web_labels/mini_imagenet_red (configuração padrão)
Tamanho do conjunto de dados :
1.19 GiB
Divisões :
Dividir | Exemplos |
---|---|
'train_00' | 50.000 |
'train_05' | 50.000 |
'train_10' | 50.000 |
'train_15' | 50.000 |
'train_20' | 50.000 |
'train_30' | 49.985 |
'train_40' | 50.010 |
'train_50' | 49.962 |
'train_60' | 50.000 |
'train_80' | 50.008 |
'validation' | 5.000 |
- Figura ( tfds.show_examples ):
- Exemplos ( tfds.as_dataframe ):
controlado_noisy_web_labels/mini_imagenet_blue
Tamanho do conjunto de dados :
1.39 GiB
Divisões :
Dividir | Exemplos |
---|---|
'train_00' | 60.000 |
'train_05' | 60.000 |
'train_10' | 60.000 |
'train_15' | 60.000 |
'train_20' | 60.000 |
'train_30' | 60.000 |
'train_40' | 60.000 |
'train_50' | 60.000 |
'train_60' | 60.000 |
'train_80' | 60.000 |
'validation' | 5.000 |
- Figura ( tfds.show_examples ):
- Exemplos ( tfds.as_dataframe ):