- Descripción :
ILSVRC 2012, comúnmente conocido como 'ImageNet', es un conjunto de datos de imágenes organizado según la jerarquía de WordNet. Cada concepto significativo en WordNet, posiblemente descrito por varias palabras o frases de palabras, se denomina "conjunto de sinónimos" o "synset". Hay más de 100.000 conjuntos sintéticos en WordNet, la mayoría de ellos son sustantivos (80.000+). En ImageNet, nuestro objetivo es proporcionar un promedio de 1000 imágenes para ilustrar cada conjunto sintético. Las imágenes de cada concepto tienen control de calidad y anotaciones humanas. Una vez finalizado, esperamos que ImageNet ofrezca decenas de millones de imágenes claramente ordenadas para la mayoría de los conceptos de la jerarquía de WordNet.
La división de prueba contiene 100.000 imágenes pero no tiene etiquetas porque no se han publicado ninguna etiqueta. Brindamos soporte para la división de prueba de 2012 con el parche menor lanzado el 10 de octubre de 2019. Para descargar manualmente estos datos, el usuario debe realizar las siguientes operaciones:
- Descargue la división de prueba de 2012 disponible aquí .
- Descargue el parche del 10 de octubre de 2019. Hay un enlace de Google Drive al parche proporcionado en la misma página.
- Combine las dos bolas de alquitrán, sobrescribiendo manualmente cualquier imagen del archivo original con imágenes del parche. Según las instrucciones de image-net.org, este procedimiento sobrescribe sólo unas pocas imágenes.
La bola de alquitrán resultante puede luego ser procesada por TFDS.
Para evaluar la precisión de un modelo en la división de prueba de ImageNet, se debe ejecutar una inferencia en todas las imágenes de la división y exportar esos resultados a un archivo de texto que se debe cargar en el servidor de evaluación de ImageNet. Los mantenedores del servidor de evaluación ImageNet permiten que un solo usuario envíe hasta 2 envíos por semana para evitar el sobreajuste.
Para evaluar la precisión de la división de la prueba, primero se debe crear una cuenta en image-net.org. Esta cuenta debe ser aprobada por el administrador del sitio. Una vez creada la cuenta, se pueden enviar los resultados al servidor de prueba en https://image-net.org/challenges/LSVRC/eval_server.php. El envío consta de varios archivos de texto ASCII correspondientes a múltiples tareas. La tarea de interés es "Envío de clasificación (error de los 5 primeros cls)". Un ejemplo de un archivo de texto exportado se parece al siguiente:
771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168
El formato de exportación se describe en su totalidad en "readme.txt" dentro del kit de desarrollo de 2013 disponible aquí: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Consulte la sección titulada "3.3 CLS-LOC formato de envío". Brevemente, el formato del archivo de texto es de 100.000 líneas correspondientes a cada imagen en la división de prueba. Cada línea de números enteros corresponde a las 5 predicciones principales ordenadas por rango para cada imagen de prueba. Los números enteros tienen un índice de 1 correspondiente al número de línea en el archivo de etiquetas correspondiente. Ver etiquetas.txt.
Página de inicio : http://image-net.org/
Código fuente :
tfds.datasets.imagenet2012_subset.Builder
Versiones :
-
2.0.0
: corrige las etiquetas de validación. -
2.0.1
: corrección de codificación. No hay cambios desde el punto de vista del usuario. 3.0.0
: Corrige la coloración en ~12 imágenes (CMYK -> RGB). Corrige el formato para mantener la coherencia (convierte la única imagen png a Jpeg). Lectura de generación más rápida directamente desde el archivo.4.0.0
: (inédito)5.0.0
(predeterminado): Nueva API dividida ( https://tensorflow.org/datasets/splits )5.1.0
: División de prueba agregada.
-
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
manual_dir debe contener dos archivos: ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar. Debe registrarse en https://image-net.org/download-images para obtener el enlace para descargar el conjunto de datos.Almacenamiento en caché automático ( documentación ): No
Estructura de características :
FeaturesDict({
'file_name': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
Nombre del archivo | Texto | cadena | ||
imagen | Imagen | (Ninguno, Ninguno, 3) | uint8 | |
etiqueta | Etiqueta de clase | int64 |
Claves supervisadas (Ver documento
as_supervised
):('image', 'label')
Cita :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}
imagenet2012_subset/1pct (configuración predeterminada)
Descripción de la configuración : 1 unidad del conjunto de entrenamiento total de ImageNet.
Tamaño de descarga :
254.22 KiB
Tamaño del conjunto de datos :
7.61 GiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 12.811 |
'validation' | 50.000 |
- Figura ( tfds.show_examples ):
- Ejemplos ( tfds.as_dataframe ):
imagenet2012_subset/10pct
Descripción de la configuración : 10% del conjunto total de entrenamiento de ImageNet.
Tamaño de descarga :
2.48 MiB
Tamaño del conjunto de datos :
19.91 GiB
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 128,116 |
'validation' | 50.000 |
- Figura ( tfds.show_examples ):
- Ejemplos ( tfds.as_dataframe ):