- Descripción :
Kitti contiene un conjunto de tareas de visión creadas utilizando una plataforma de conducción autónoma. El punto de referencia completo contiene muchas tareas, como estéreo, flujo óptico, odometría visual, etc. Este conjunto de datos contiene el conjunto de datos de detección de objetos, incluidas las imágenes monoculares y los cuadros delimitadores. El conjunto de datos contiene 7481 imágenes de entrenamiento anotadas con cuadros delimitadores 3D. Puede encontrar una descripción completa de las anotaciones en el archivo Léame del kit de desarrollo de objetos en la página de inicio de Kitti.
Documentación adicional : Explorar en artículos con código
Página de inicio : http://www.cvlibs.net/datasets/kitti/
Código fuente :
tfds.datasets.kitti.Builder
Versiones :
-
3.1.0
: Sin notas de versión. -
3.2.0
: kit de desarrollo actualizado. -
3.3.0
(predeterminado): etiquetas agregadas para la característicaoccluded
.
-
Tamaño de descarga :
11.71 GiB
Tamaño del conjunto de datos :
5.27 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 711 |
'train' | 6.347 |
'validation' | 423 |
- Estructura de características :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/file_name': Text(shape=(), dtype=string),
'objects': Sequence({
'alpha': float32,
'bbox': BBoxFeature(shape=(4,), dtype=float32, description=2D bounding box of object in the image),
'dimensions': Tensor(shape=(3,), dtype=float32, description=3D object dimensions: height, width, length (in meters)),
'location': Tensor(shape=(3,), dtype=float32, description=3D object location x,y,z in camera coordinates (in meters)),
'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rotation_y': float32,
'truncated': float32,
'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
}),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
imagen | Imagen | (Ninguno, Ninguno, 3) | uint8 | |
imagen/nombre_archivo | Texto | cadena | ||
objetos | Secuencia | |||
objetos/alfa | Tensor | flotador32 | Ángulo de observación del objeto, rango [-pi..pi] | |
objetos/caja | Característica BBox | (4,) | flotador32 | Cuadro delimitador 2D del objeto en la imagen |
objetos/dimensiones | Tensor | (3,) | flotador32 | Dimensiones del objeto 3D: alto, ancho, largo (en metros) |
objetos/ubicación | Tensor | (3,) | flotador32 | Ubicación del objeto 3D x,y,z en coordenadas de la cámara (en metros) |
objetos/ocluidos | Etiqueta de clase | int64 | Entero (0,1,2,3) que indica el estado de oclusión: 0 = completamente visible, 1 = parcialmente ocluido2 = en gran medida ocluido, 3 = desconocido | |
objetos/rotación_y | Tensor | flotador32 | Rotación alrededor del eje Y en las coordenadas de la cámara [-pi..pi] | |
objetos/truncados | Tensor | flotador32 | Flota de 0 (no truncado) a 1 (truncado), donde truncado se refiere al objeto que sale de los límites de la imagen. | |
objetos/tipo | Etiqueta de clase | int64 | El tipo de objeto, por ejemplo, 'Coche' o 'Furgoneta' |
Claves supervisadas (ver documento
as_supervised
):None
Figura ( tfds.show_examples ):
- Ejemplos ( tfds.as_dataframe ):
- Cita :
@inproceedings{Geiger2012CVPR,
author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2012}
}