imagenet2012

  • Descripción :

ILSVRC 2012, comúnmente conocido como 'ImageNet', es un conjunto de datos de imágenes organizado según la jerarquía de WordNet. Cada concepto significativo en WordNet, posiblemente descrito por varias palabras o frases de palabras, se denomina "conjunto de sinónimos" o "synset". Hay más de 100.000 conjuntos sintéticos en WordNet, la mayoría de ellos son sustantivos (80.000+). En ImageNet, nuestro objetivo es proporcionar un promedio de 1000 imágenes para ilustrar cada conjunto sintético. Las imágenes de cada concepto tienen control de calidad y anotaciones humanas. Una vez finalizado, esperamos que ImageNet ofrezca decenas de millones de imágenes claramente ordenadas para la mayoría de los conceptos de la jerarquía de WordNet.

La división de prueba contiene 100.000 imágenes pero no tiene etiquetas porque no se han hecho públicas ninguna etiqueta. Brindamos soporte para la división de prueba de 2012 con el parche menor lanzado el 10 de octubre de 2019. Para descargar manualmente estos datos, el usuario debe realizar las siguientes operaciones:

  1. Descargue la división de prueba de 2012 disponible aquí .
  2. Descargue el parche del 10 de octubre de 2019. Hay un enlace de Google Drive al parche proporcionado en la misma página.
  3. Combine las dos bolas de alquitrán, sobrescribiendo manualmente cualquier imagen del archivo original con imágenes del parche. Según las instrucciones de image-net.org, este procedimiento sobrescribe sólo unas pocas imágenes.

La bola de alquitrán resultante puede luego ser procesada por TFDS.

Para evaluar la precisión de un modelo en la división de prueba de ImageNet, se debe ejecutar una inferencia en todas las imágenes de la división y exportar esos resultados a un archivo de texto que se debe cargar en el servidor de evaluación de ImageNet. Los mantenedores del servidor de evaluación ImageNet permiten que un solo usuario envíe hasta 2 envíos por semana para evitar el sobreajuste.

Para evaluar la precisión de la división de la prueba, primero se debe crear una cuenta en image-net.org. Esta cuenta debe ser aprobada por el administrador del sitio. Una vez creada la cuenta, se pueden enviar los resultados al servidor de prueba en https://image-net.org/challenges/LSVRC/eval_server.php. El envío consta de varios archivos de texto ASCII correspondientes a múltiples tareas. La tarea de interés es "Envío de clasificación (error de los 5 primeros cls)". Un ejemplo de un archivo de texto exportado se parece al siguiente:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

El formato de exportación se describe en su totalidad en "readme.txt" dentro del kit de desarrollo de 2013 disponible aquí: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Consulte la sección titulada "3.3 CLS-LOC formato de envío". Brevemente, el formato del archivo de texto es de 100.000 líneas correspondientes a cada imagen en la división de prueba. Cada línea de números enteros corresponde a las 5 predicciones principales ordenadas por rango para cada imagen de prueba. Los números enteros tienen un índice de 1 correspondiente al número de línea en el archivo de etiquetas correspondiente. Ver etiquetas.txt.

  • Documentación adicional : Explorar en artículos con código

  • Página de inicio : https://image-net.org/

  • Código fuente : tfds.datasets.imagenet2012.Builder

  • Versiones :

    • 2.0.0 : corrige las etiquetas de validación.
    • 2.0.1 : corrección de codificación. No hay cambios desde el punto de vista del usuario.
    • 3.0.0 : Corrige la coloración en ~12 imágenes (CMYK -> RGB). Corrige el formato para mantener la coherencia (convierte la única imagen png a Jpeg). Lectura de generación más rápida directamente desde el archivo.

    • 4.0.0 : (inédito)

    • 5.0.0 : Nueva API dividida ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (predeterminado): división de prueba agregada.

  • Tamaño de descarga : Unknown size

  • Tamaño del conjunto de datos : 155.84 GiB

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir debe contener dos archivos: ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar. Debe registrarse en https://image-net.org/download-images para obtener el enlace para descargar el conjunto de datos.

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 100.000
'train' 1.281.167
'validation' 50.000
  • Estructura de características :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción
FuncionesDict
Nombre del archivo Texto cadena
imagen Imagen (Ninguno, Ninguno, 3) uint8
etiqueta Etiqueta de clase int64

Visualización

  • Citación :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}