gatinho

  • Descrição :

Kitti contém um conjunto de tarefas de visão construídas usando uma plataforma de direção autônoma. O benchmark completo contém muitas tarefas, como estéreo, fluxo óptico, odometria visual, etc. Este conjunto de dados contém o conjunto de dados de detecção de objetos, incluindo as imagens monoculares e caixas delimitadoras. O conjunto de dados contém 7.481 imagens de treinamento anotadas com caixas delimitadoras 3D. Uma descrição completa das anotações pode ser encontrada no leia-me do kit de desenvolvimento de objetos na página inicial do Kitti.

Dividir Exemplos
'test' 711
'train' 6.347
'validation' 423
  • Estrutura de recursos :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/file_name': Text(shape=(), dtype=string),
    'objects': Sequence({
        'alpha': float32,
        'bbox': BBoxFeature(shape=(4,), dtype=float32, description=2D bounding box of object in the image),
        'dimensions': Tensor(shape=(3,), dtype=float32, description=3D object dimensions: height, width, length (in meters)),
        'location': Tensor(shape=(3,), dtype=float32, description=3D object location x,y,z in camera coordinates (in meters)),
        'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
        'rotation_y': float32,
        'truncated': float32,
        'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
    }),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
imagem Imagem (Nenhum, Nenhum, 3) uint8
imagem/nome_do_arquivo Texto corda
objetos Sequência
objetos/alfa Tensor float32 Ângulo de observação do objeto, variando [-pi..pi]
objetos/bbox BBoxFeature (4,) float32 Caixa delimitadora 2D do objeto na imagem
objetos/dimensões Tensor (3,) float32 Dimensões do objeto 3D: altura, largura, comprimento (em metros)
objetos/localização Tensor (3,) float32 Localização do objeto 3D x,y,z nas coordenadas da câmera (em metros)
objetos / ocluídos ClassLabel int64 Inteiro (0,1,2,3) indicando estado de oclusão: 0 = totalmente visível, 1 = parcialmente ocluído2 = amplamente ocluído, 3 = desconhecido
objetos/rotação_y Tensor float32 Rotação em torno do eixo Y nas coordenadas da câmera [-pi..pi]
objetos/truncados Tensor float32 Flutua de 0 (não truncado) a 1 (truncado), onde truncado se refere ao objeto que sai dos limites da imagem
objetos/tipo ClassLabel int64 O tipo de objeto, por exemplo, 'Carro' ou 'Van'

Visualização

  • Citação :
@inproceedings{Geiger2012CVPR,
  author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
  title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
  booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2012}
}