キティ

  • 説明

Kitti には、自動運転プラットフォームを使用して構築された一連のビジョン タスクが含まれています。完全なベンチマークには、ステレオ、オプティカル フロー、ビジュアル オドメトリなどの多くのタスクが含まれています。このデータセットには、単眼画像や境界ボックスを含む物体検出データセットが含まれています。データセットには、3D 境界ボックスで注釈が付けられた 7481 個のトレーニング画像が含まれています。注釈の完全な説明は、Kitti ホームページにあるオブジェクト開発キットの Readme に記載されています。

スプリット
'test' 711
'train' 6,347
'validation' 423
  • 機能の構造:
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/file_name': Text(shape=(), dtype=string),
    'objects': Sequence({
        'alpha': float32,
        'bbox': BBoxFeature(shape=(4,), dtype=float32, description=2D bounding box of object in the image),
        'dimensions': Tensor(shape=(3,), dtype=float32, description=3D object dimensions: height, width, length (in meters)),
        'location': Tensor(shape=(3,), dtype=float32, description=3D object location x,y,z in camera coordinates (in meters)),
        'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
        'rotation_y': float32,
        'truncated': float32,
        'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
    }),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
画像画像(なし、なし、3) uint8
画像/ファイル名文章
オブジェクト順序
オブジェクト/アルファテンソルfloat32オブジェクトの観察角度、範囲 [-pi..pi]
オブジェクト/BボックスBBox機能(4,) float32画像内のオブジェクトの 2D 境界ボックス
オブジェクト/寸法テンソル(3,) float32 3D オブジェクトの寸法: 高さ、幅、長さ (メートル単位)
オブジェクト/場所テンソル(3,) float32カメラ座標における 3D オブジェクトの位置 x、y、z (メートル単位)
オブジェクト/遮蔽物クラスラベルint64オクルージョン状態を示す整数 (0、1、2、3): 0 = 完全に表示、1 = 部分的にオクルージョン2 = 大幅にオクルージョン、3 = 不明
オブジェクト/回転_yテンソルfloat32カメラ座標における Y 軸周りの回転 ry [-pi..pi]
オブジェクト/切り捨てられたテンソルfloat32 0 (切り捨てられていない) から 1 (切り捨てられた) までの浮動小数点。切り捨てられたとは、画像の境界を残すオブジェクトを指します。
オブジェクト/タイプクラスラベルint64オブジェクトのタイプ (例: 「車」または「バン」)

視覚化

  • 引用
@inproceedings{Geiger2012CVPR,
  author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
  title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
  booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2012}
}