imagenet2012

  • Описание :

ILSVRC 2012, широко известный как ImageNet, представляет собой набор данных изображений, организованный в соответствии с иерархией WordNet. Каждое значимое понятие в WordNet, возможно, описываемое несколькими словами или словосочетаниями, называется «набором синонимов» или «синсетом». В WordNet более 100 000 синсетов, большинство из них — существительные (80 000+). В ImageNet мы стремимся предоставить в среднем 1000 изображений для иллюстрации каждого синсета. Изображения каждой концепции проходят контроль качества и аннотируются человеком. Мы надеемся, что после завершения ImageNet предложит десятки миллионов четко отсортированных изображений для большинства понятий в иерархии WordNet.

Тестовый сплит содержит 100 тысяч изображений, но не содержит меток, поскольку ни одна метка не была опубликована публично. Мы обеспечиваем поддержку тестового сплита 2012 года с помощью минорного патча, выпущенного 10 октября 2019 года. Чтобы загрузить эти данные вручную, пользователю необходимо выполнить следующие операции:

  1. Скачать тестовый сплит 2012 года можно здесь .
  2. Загрузите патч от 10 октября 2019 г. На той же странице есть ссылка на патч на Google Диске.
  3. Объедините два tar-шара, вручную перезаписав все изображения в исходном архиве изображениями из патча. Согласно инструкции на image-net.org, эта процедура перезаписывает всего несколько изображений.

Полученный tar-шар затем может быть обработан TFDS.

Чтобы оценить точность модели в тестовом сплите ImageNet, необходимо выполнить логический вывод для всех изображений в сплите, экспортировать эти результаты в текстовый файл, который необходимо загрузить на оценочный сервер ImageNet. Сопровождающие оценочного сервера ImageNet разрешают одному пользователю отправлять до двух заявок в неделю, чтобы избежать переобучения.

Чтобы оценить точность тестового разделения, необходимо сначала создать учетную запись на image-net.org. Эта учетная запись должна быть одобрена администратором сайта. После создания учетной записи можно отправить результаты на тестовый сервер по адресу https://image-net.org/challenges/LSVRC/eval_server.php. Отправка состоит из нескольких текстовых файлов ASCII, соответствующих нескольким задачам. Интересующая задача — «Подача классификации (ошибка топ-5 cls)». Пример экспортированного текстового файла выглядит следующим образом:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Формат экспорта полностью описан в «readme.txt» в комплекте разработки 2013 года, доступном здесь: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz . См. раздел «3.3 CLS-LOC». Форма подачи». Вкратце, формат текстового файла составляет 100 000 строк, соответствующих каждому изображению в тестовом фрагменте. Каждая строка целых чисел соответствует 5-ти лучшим предсказаниям для каждого тестового изображения. Целые числа имеют индекс 1, соответствующий номеру строки в соответствующем файле меток. См. labels.txt.

  • Дополнительная документация : Изучите статьи с кодом

  • Домашняя страница : https://image-net.org/

  • Исходный код : tfds.datasets.imagenet2012.Builder

  • Версии :

    • 2.0.0 : исправлены метки проверки.
    • 2.0.1 : Исправление кодировки. Никаких изменений с точки зрения пользователя.
    • 3.0.0 : исправлена ​​раскраска примерно 12 изображений (CMYK -> RGB). Исправьте формат для обеспечения единообразия (конвертируйте одно изображение PNG в Jpeg). Ускоренное чтение генерации прямо из архива.

    • 4.0.0 : (неопубликовано)

    • 5.0.0 : Новый API разделения ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (по умолчанию): добавлено тестовое разделение.

  • Размер загрузки : Unknown size

  • Размер набора данных : 155.84 GiB

  • Инструкции по загрузке вручную : этот набор данных требует, чтобы вы вручную загрузили исходные данные в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir должен содержать два файла: ILSVRC2012_img_train.tar и ILSVRC2012_img_val.tar. Вам необходимо зарегистрироваться на https://image-net.org/download-images , чтобы получить ссылку для загрузки набора данных.

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 100 000
'train' 1 281 167
'validation' 50 000
  • Структура функции :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание
ВозможностиDict
имя файла Текст нить
изображение Изображение (Нет, Нет, 3) uint8
этикетка Класслейбл int64

Визуализация

  • Цитата :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}