chaton

  • Description :

Kitti contient une suite de tâches de vision construites à l'aide d'une plateforme de conduite autonome. Le benchmark complet contient de nombreuses tâches telles que la stéréo, le flux optique, l'odométrie visuelle, etc. Cet ensemble de données contient l'ensemble de données de détection d'objets, y compris les images monoculaires et les cadres de délimitation. L'ensemble de données contient 7 481 images d'entraînement annotées avec des cadres de délimitation 3D. Une description complète des annotations peut être trouvée dans le fichier Lisez-moi du fichier Lisez-moi du kit de développement d'objets sur la page d'accueil de Kitti.

Diviser Exemples
'test' 711
'train' 6 347
'validation' 423
  • Structure des fonctionnalités :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/file_name': Text(shape=(), dtype=string),
    'objects': Sequence({
        'alpha': float32,
        'bbox': BBoxFeature(shape=(4,), dtype=float32, description=2D bounding box of object in the image),
        'dimensions': Tensor(shape=(3,), dtype=float32, description=3D object dimensions: height, width, length (in meters)),
        'location': Tensor(shape=(3,), dtype=float32, description=3D object location x,y,z in camera coordinates (in meters)),
        'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
        'rotation_y': float32,
        'truncated': float32,
        'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
image Image (Aucun, Aucun, 3) uint8
image/nom_fichier Texte chaîne
objets Séquence
objets/alpha Tenseur flotteur32 Angle d'observation de l'objet, allant de [-pi..pi]
objets/bbox Fonctionnalité BBox (4,) flotteur32 Cadre de délimitation 2D de l'objet dans l'image
objets/dimensions Tenseur (3,) flotteur32 Dimensions des objets 3D : hauteur, largeur, longueur (en mètres)
objets/emplacement Tenseur (3,) flotteur32 Emplacement de l'objet 3D x,y,z en coordonnées de la caméra (en mètres)
objets/occlus Étiquette de classe int64 Entier (0,1,2,3) indiquant l'état d'occlusion : 0 = entièrement visible, 1 = partiellement obstrué 2 = largement obstrué, 3 = inconnu
objets/rotation_y Tenseur flotteur32 Rotation autour de l'axe Y dans les coordonnées de la caméra [-pi..pi]
objets/tronqué Tenseur flotteur32 Flottant de 0 (non tronqué) à 1 (tronqué), où tronqué fait référence à l'objet qui laisse les limites de l'image
objets/type Étiquette de classe int64 Le type d'objet, par exemple « Voiture » ​​ou « Van »

Visualisation

  • Citation :
@inproceedings{Geiger2012CVPR,
  author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
  title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
  booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2012}
}