gattino

  • Descrizione :

Kitti contiene una serie di attività visive realizzate utilizzando una piattaforma di guida autonoma. Il benchmark completo contiene molte attività come stereo, flusso ottico, odometria visiva, ecc. Questo set di dati contiene il set di dati di rilevamento degli oggetti, comprese le immagini monoculari e i riquadri di delimitazione. Il set di dati contiene 7481 immagini di addestramento annotate con riquadri di delimitazione 3D. Una descrizione completa delle annotazioni può essere trovata nel file readme del file readme del kit di sviluppo oggetti sulla home page di Kitti.

Diviso Esempi
'test' 711
'train' 6.347
'validation' 423
  • Struttura delle caratteristiche :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/file_name': Text(shape=(), dtype=string),
    'objects': Sequence({
        'alpha': float32,
        'bbox': BBoxFeature(shape=(4,), dtype=float32, description=2D bounding box of object in the image),
        'dimensions': Tensor(shape=(3,), dtype=float32, description=3D object dimensions: height, width, length (in meters)),
        'location': Tensor(shape=(3,), dtype=float32, description=3D object location x,y,z in camera coordinates (in meters)),
        'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
        'rotation_y': float32,
        'truncated': float32,
        'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
immagine Immagine (Nessuno, Nessuno, 3) uint8
immagine/nome_file Testo corda
oggetti Sequenza
oggetti/alfa Tensore float32 Angolo di osservazione dell'oggetto, che va [-pi..pi]
oggetti/bbox Funzione BBox (4,) float32 Riquadro di delimitazione 2D dell'oggetto nell'immagine
oggetti/dimensioni Tensore (3,) float32 Dimensioni dell'oggetto 3D: altezza, larghezza, lunghezza (in metri)
oggetti/posizione Tensore (3,) float32 Posizione dell'oggetto 3D x,y,z nelle coordinate della fotocamera (in metri)
oggetti/occlusi ClassLabel int64 Numero intero (0,1,2,3) che indica lo stato di occlusione: 0 = completamente visibile, 1 = parzialmente occluso2 = ampiamente occluso, 3 = sconosciuto
oggetti/rotazione_y Tensore float32 Rotazione attorno all'asse Y nelle coordinate della fotocamera [-pi..pi]
oggetti/troncato Tensore float32 Mobile da 0 (non troncato) a 1 (troncato), dove troncato si riferisce all'oggetto che lascia i confini dell'immagine
oggetti/tipo ClassLabel int64 Il tipo di oggetto, ad esempio "Auto" o "Furgone"

Visualizzazione

  • Citazione :
@inproceedings{Geiger2012CVPR,
  author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
  title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
  booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2012}
}