- Descrizione :
Kitti contiene una serie di attività visive realizzate utilizzando una piattaforma di guida autonoma. Il benchmark completo contiene molte attività come stereo, flusso ottico, odometria visiva, ecc. Questo set di dati contiene il set di dati di rilevamento degli oggetti, comprese le immagini monoculari e i riquadri di delimitazione. Il set di dati contiene 7481 immagini di addestramento annotate con riquadri di delimitazione 3D. Una descrizione completa delle annotazioni può essere trovata nel file readme del file readme del kit di sviluppo oggetti sulla home page di Kitti.
Documentazione aggiuntiva : esplora documenti con codice
Pagina iniziale : http://www.cvlibs.net/datasets/kitti/
Codice sorgente :
tfds.datasets.kitti.Builder
Versioni :
-
3.1.0
: nessuna nota di rilascio. -
3.2.0
: Devkit aggiornato. -
3.3.0
(impostazione predefinita): aggiunte etichette per la funzionalitàoccluded
.
-
Dimensione download :
11.71 GiB
Dimensioni del set di dati :
5.27 GiB
Memorizzazione nella cache automatica ( documentazione ): No
Divide :
Diviso | Esempi |
---|---|
'test' | 711 |
'train' | 6.347 |
'validation' | 423 |
- Struttura delle caratteristiche :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/file_name': Text(shape=(), dtype=string),
'objects': Sequence({
'alpha': float32,
'bbox': BBoxFeature(shape=(4,), dtype=float32, description=2D bounding box of object in the image),
'dimensions': Tensor(shape=(3,), dtype=float32, description=3D object dimensions: height, width, length (in meters)),
'location': Tensor(shape=(3,), dtype=float32, description=3D object location x,y,z in camera coordinates (in meters)),
'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rotation_y': float32,
'truncated': float32,
'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
immagine | Immagine | (Nessuno, Nessuno, 3) | uint8 | |
immagine/nome_file | Testo | corda | ||
oggetti | Sequenza | |||
oggetti/alfa | Tensore | float32 | Angolo di osservazione dell'oggetto, che va [-pi..pi] | |
oggetti/bbox | Funzione BBox | (4,) | float32 | Riquadro di delimitazione 2D dell'oggetto nell'immagine |
oggetti/dimensioni | Tensore | (3,) | float32 | Dimensioni dell'oggetto 3D: altezza, larghezza, lunghezza (in metri) |
oggetti/posizione | Tensore | (3,) | float32 | Posizione dell'oggetto 3D x,y,z nelle coordinate della fotocamera (in metri) |
oggetti/occlusi | ClassLabel | int64 | Numero intero (0,1,2,3) che indica lo stato di occlusione: 0 = completamente visibile, 1 = parzialmente occluso2 = ampiamente occluso, 3 = sconosciuto | |
oggetti/rotazione_y | Tensore | float32 | Rotazione attorno all'asse Y nelle coordinate della fotocamera [-pi..pi] | |
oggetti/troncato | Tensore | float32 | Mobile da 0 (non troncato) a 1 (troncato), dove troncato si riferisce all'oggetto che lascia i confini dell'immagine | |
oggetti/tipo | ClassLabel | int64 | Il tipo di oggetto, ad esempio "Auto" o "Furgone" |
Chiavi supervisionate (vedi il documento
as_supervised
):None
Figura ( tfds.show_examples ):
- Esempi ( tfds.as_dataframe ):
- Citazione :
@inproceedings{Geiger2012CVPR,
author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2012}
}