- विवरण :
किट्टी में एक स्वायत्त ड्राइविंग प्लेटफ़ॉर्म का उपयोग करके निर्मित विज़न कार्यों का एक सूट शामिल है। पूर्ण बेंचमार्क में स्टीरियो, ऑप्टिकल फ्लो, विज़ुअल ओडोमेट्री इत्यादि जैसे कई कार्य शामिल हैं। इस डेटासेट में ऑब्जेक्ट डिटेक्शन डेटासेट शामिल है, जिसमें मोनोकुलर इमेज और बाउंडिंग बॉक्स शामिल हैं। डेटासेट में 3डी बाउंडिंग बॉक्स के साथ एनोटेट की गई 7481 प्रशिक्षण छवियां हैं। एनोटेशन का पूरा विवरण किट्टी होमपेज पर ऑब्जेक्ट डेवलपमेंट किट रीडमी के रीडमी में पाया जा सकता है।
मुखपृष्ठ : http://www.cvlibs.net/datasets/kitti/
स्रोत कोड :
tfds.datasets.kitti.Builder
संस्करण :
-
3.1.0
: कोई रिलीज़ नोट नहीं। -
3.2.0
: देवकिट अपडेट किया गया। -
3.3.0
(डिफ़ॉल्ट):occluded
सुविधा के लिए लेबल जोड़े गए।
-
डाउनलोड आकार :
11.71 GiB
डेटासेट का आकार :
5.27 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 711 |
'train' | 6,347 |
'validation' | 423 |
- फ़ीचर संरचना :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/file_name': Text(shape=(), dtype=string),
'objects': Sequence({
'alpha': float32,
'bbox': BBoxFeature(shape=(4,), dtype=float32, description=2D bounding box of object in the image),
'dimensions': Tensor(shape=(3,), dtype=float32, description=3D object dimensions: height, width, length (in meters)),
'location': Tensor(shape=(3,), dtype=float32, description=3D object location x,y,z in camera coordinates (in meters)),
'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rotation_y': float32,
'truncated': float32,
'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
छवि | छवि | (कोई नहीं, कोई नहीं, 3) | uint8 | |
छवि/फ़ाइल_नाम | मूलपाठ | डोरी | ||
वस्तुओं | अनुक्रम | |||
ऑब्जेक्ट/अल्फ़ा | टेन्सर | फ्लोट32 | वस्तु का अवलोकन कोण, [-pi..pi] तक | |
ऑब्जेक्ट/बीबॉक्स | बीबॉक्सफ़ीचर | (4,) | फ्लोट32 | छवि में ऑब्जेक्ट का 2डी बाउंडिंग बॉक्स |
वस्तुएं/आयाम | टेन्सर | (3,) | फ्लोट32 | 3डी ऑब्जेक्ट आयाम: ऊंचाई, चौड़ाई, लंबाई (मीटर में) |
वस्तुएं/स्थान | टेन्सर | (3,) | फ्लोट32 | कैमरा निर्देशांक में 3डी ऑब्जेक्ट स्थान x,y,z (मीटर में) |
वस्तुएं/अवरुद्ध | क्लास लेबल | int64 | पूर्णांक (0,1,2,3) रोड़ा स्थिति को दर्शाता है: 0 = पूरी तरह से दृश्यमान, 1 = आंशिक रूप से अवरुद्ध 2 = काफी हद तक अवरुद्ध, 3 = अज्ञात | |
ऑब्जेक्ट/रोटेशन_y | टेन्सर | फ्लोट32 | कैमरे के निर्देशांक में Y-अक्ष के चारों ओर घूमना [-pi..pi] | |
ऑब्जेक्ट/छोटा किया गया | टेन्सर | फ्लोट32 | 0 (बिना काटे गए) से 1 (काटे गए) तक फ़्लोट करें, जहां काटे गए ऑब्जेक्ट का तात्पर्य छवि सीमाओं को छोड़ने से है | |
वस्तुएं/प्रकार | क्लास लेबल | int64 | वस्तु का प्रकार, जैसे 'कार' या 'वैन' |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ):
- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{Geiger2012CVPR,
author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2012}
}