- وصف :
يحتوي Kitti على مجموعة من مهام الرؤية التي تم إنشاؤها باستخدام منصة القيادة الذاتية. يحتوي المعيار الكامل على العديد من المهام مثل الاستريو والتدفق البصري وقياس المسافة المرئية وما إلى ذلك. تحتوي مجموعة البيانات هذه على مجموعة بيانات الكشف عن الكائنات، بما في ذلك الصور الأحادية والمربعات المحيطة. تحتوي مجموعة البيانات على 7481 صورة تدريبية موضحة بمربعات محيطة ثلاثية الأبعاد. يمكن العثور على وصف كامل للتعليقات التوضيحية في الملف التمهيدي الخاص بمجموعة أدوات تطوير الكائنات على صفحة Kitti الرئيسية.
وثائق إضافية : استكشاف الأوراق باستخدام الكود
الصفحة الرئيسية : http://www.cvlibs.net/datasets/kitti/
كود المصدر :
tfds.datasets.kitti.Builder
الإصدارات :
-
3.1.0
: لا توجد ملاحظات الإصدار. -
3.2.0
: تم تحديث Devkit. -
3.3.0
(افتراضي): تمت إضافة تسميات للميزةoccluded
.
-
حجم التحميل :
11.71 GiB
حجم مجموعة البيانات :
5.27 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 711 |
'train' | 6,347 |
'validation' | 423 |
- هيكل الميزة :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/file_name': Text(shape=(), dtype=string),
'objects': Sequence({
'alpha': float32,
'bbox': BBoxFeature(shape=(4,), dtype=float32, description=2D bounding box of object in the image),
'dimensions': Tensor(shape=(3,), dtype=float32, description=3D object dimensions: height, width, length (in meters)),
'location': Tensor(shape=(3,), dtype=float32, description=3D object location x,y,z in camera coordinates (in meters)),
'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rotation_y': float32,
'truncated': float32,
'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
}),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع D | وصف |
---|---|---|---|---|
المميزاتDict | ||||
صورة | صورة | (لا شيء، لا شيء، 3) | uint8 | |
الصورة/اسم_الملف | نص | خيط | ||
أشياء | تسلسل | |||
الكائنات/ألفا | الموتر | float32 | زاوية مراقبة الجسم، تتراوح [-pi..pi] | |
الكائنات/bbox | ميزة BBox | (4،) | float32 | مربع محيط ثنائي الأبعاد للكائن في الصورة |
الكائنات / الأبعاد | الموتر | (3،) | float32 | أبعاد الكائن ثلاثي الأبعاد: الارتفاع والعرض والطول (بالأمتار) |
الكائنات/الموقع | الموتر | (3،) | float32 | موقع الكائن ثلاثي الأبعاد x,y,z في إحداثيات الكاميرا (بالأمتار) |
الكائنات / المحظورة | ClassLabel | int64 | عدد صحيح (0،1،2،3) يشير إلى حالة الانسداد: 0 = مرئي بالكامل، 1 = مغلق جزئيًا2 = مغلق إلى حد كبير، 3 = غير معروف | |
الكائنات/rotation_y | الموتر | float32 | الدوران حول المحور Y في إحداثيات الكاميرا [-pi..pi] | |
الكائنات/مقتطعة | الموتر | float32 | تطفو من 0 (غير مقطوع) إلى 1 (غير مقطوع)، حيث يشير المقطع إلى الكائن الذي يترك حدود الصورة | |
الكائنات/النوع | ClassLabel | int64 | نوع الكائن، على سبيل المثال "سيارة" أو "شاحنة" |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):None
الشكل ( tfds.show_examples ):
- أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{Geiger2012CVPR,
author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2012}
}