- Описание :
Контролируемые шумовые веб-метки — это набор из примерно 212 000 URL-адресов изображений, в которых каждое изображение тщательно аннотируется 3–5 специалистами по маркировке с помощью Google Cloud Data Labeling Service. Используя эти аннотации, он устанавливает первый эталон контролируемого реального шума этикеток из Интернета.
Мы предоставляем конфигурации Red Mini-ImageNet (реальный веб-шум) и Blue Mini-ImageNet:
Каждая конфигурация содержит десять вариантов с десятью уровнями шума p от 0% до 80%. Проверочный набор имеет чистые метки и является общим для всех зашумленных обучающих наборов. Поэтому каждый конфиг имеет следующие разбиения:
- поезд_00
- поезд_05
- поезд_10
- поезд_15
- поезд_20
- поезд_30
- поезд_40
- поезд_50
- поезд_60
- поезд_80
- Проверка
Подробности построения и анализа набора данных можно найти в документе. Все изображения изменены до разрешения 84x84.
Домашняя страница : https://google.github.io/controller-noisy-web-labels/index.html
Исходный код :
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
1.83 MiB
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Чтобы вручную загрузить эти данные, пользователь должен выполнить следующие операции:
- Скачать сплиты и аннотации здесь
- Распакуйте dataset_no_images.zip в dataset_no_images/.
- Загрузите все изображения из dataset_no_images/mini-imagenet-annotations.json в новую папку с именем dataset_no_images/noisy_images/. Имя выходного файла должно совпадать с идентификатором изображения, указанным в mini-imagenet-annotations.json. Например, если "image/id": "5922767e5677aef4", то загруженное изображение должно иметь вид dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4. Зарегистрируйтесь на https://image-net.org/download-images и загрузите ILSVRC2012_img_train.tar и ILSVRC2012_img_val.tar.
Полученная структура каталогов затем может быть обработана TFDS:
- набор данных_no_images/
- мини-имагенет/
- class_name.txt
- расколоть/
- blue_noise_nl_0.0
- blue_noise_nl_0.1
- ...
- красный_шум_nl_0.0
- красный_шум_nl_0.1
- ...
- чистая_валидация
- мини-imagenet-annotations.json
- ILSVRC2012_img_train.tar
- ILSVRC2012_img_val.tar
шумные_изображения/
- 5922767e5677aef4.jpg
Автоматическое кэширование ( документация ): Нет
Структура функции :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
я бы | Текст | нить | ||
изображение | Изображение | (Нет, Нет, 3) | uint8 | |
чистый | Тензор | логический | ||
этикетка | Метка класса | int64 |
Контролируемые ключи (см . документ
as_supervised
):('image', 'label')
Цитата :
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
control_noisy_web_labels/mini_imagenet_red (конфигурация по умолчанию)
Размер набора данных :
1.19 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'train_00' | 50 000 |
'train_05' | 50 000 |
'train_10' | 50 000 |
'train_15' | 50 000 |
'train_20' | 50 000 |
'train_30' | 49 985 |
'train_40' | 50 010 |
'train_50' | 49 962 |
'train_60' | 50 000 |
'train_80' | 50 008 |
'validation' | 5000 |
- Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):
control_noisy_web_labels/mini_imagenet_blue
Размер набора данных :
1.39 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'train_00' | 60 000 |
'train_05' | 60 000 |
'train_10' | 60 000 |
'train_15' | 60 000 |
'train_20' | 60 000 |
'train_30' | 60 000 |
'train_40' | 60 000 |
'train_50' | 60 000 |
'train_60' | 60 000 |
'train_80' | 60 000 |
'validation' | 5000 |
- Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):