- وصف :
مجموعة بيانات TAO عبارة عن مجموعة بيانات كبيرة للكشف عن كائنات الفيديو تتكون من 2907 مقاطع فيديو عالية الدقة و833 فئة كائنات. لاحظ أن مجموعة البيانات هذه تتطلب ما لا يقل عن 300 جيجابايت من المساحة الحرة لتخزينها.
وثائق إضافية : استكشاف الأوراق باستخدام الكود
الصفحة الرئيسية : https://taodataset.org/
كود المصدر :
tfds.video.tao.Tao
الإصدارات :
-
1.1.0
(افتراضي) : تمت إضافة تقسيم الاختبار.
-
حجم التحميل :
Unknown size
حجم مجموعة البيانات :
Unknown size
تعليمات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل البيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعداد الافتراضي هو~/tensorflow_datasets/downloads/manual/
):
يجب تنزيل بعض ملفات TAO (مقاطع فيديو HVACS وAVA) يدويًا لأن تسجيل الدخول إلى MOT مطلوب. يرجى تنزيل هذه البيانات واتباع الإرشادات الموجودة على https://motchallenge.net/tao_download.php
قم بتنزيل هذه البيانات وانقل ملفات .zip الناتجة إلى ~/tensorflow_datasets/downloads/manual/
إذا لم تكن البيانات التي تتطلب تنزيلًا يدويًا موجودة، فسيتم تخطيها وسيتم استخدام البيانات التي لا تتطلب تنزيلًا يدويًا فقط.
التخزين المؤقت التلقائي ( الوثائق ): غير معروف
الإنشقاقات :
ينقسم | أمثلة |
---|
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ): مفقود.
الاقتباس :
@article{Dave_2020,
title={TAO: A Large-Scale Benchmark for Tracking Any Object},
ISBN={9783030585587},
ISSN={1611-3349},
url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
DOI={10.1007/978-3-030-58558-7_26},
journal={Lecture Notes in Computer Science},
publisher={Springer International Publishing},
author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
year={2020},
pages={436-454}
}
تاو/480_640 (التكوين الافتراضي)
وصف التكوين : تم تغيير حجم جميع الصور إلى 480 × 640
هيكل الميزة :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع D | وصف |
---|---|---|---|---|
المميزاتDict | ||||
البيانات الوصفية | المميزاتDict | |||
البيانات الوصفية/مجموعة البيانات | الموتر | خيط | ||
البيانات الوصفية/الارتفاع | الموتر | int32 | ||
البيانات الوصفية/neg_category_ids | الموتر | (لا أحد،) | int32 | |
البيانات الوصفية/not_exhaustive_category_ids | الموتر | (لا أحد،) | int32 | |
البيانات الوصفية/num_frames | الموتر | int32 | ||
البيانات الوصفية/video_name | الموتر | خيط | ||
البيانات الوصفية/العرض | الموتر | int32 | ||
المسارات | تسلسل | |||
المسارات/صناديق | التسلسل (ميزة BBox) | (لا شيء، 4) | float32 | |
المسارات/الفئة | ClassLabel | int64 | ||
المسارات/الإطارات | التسلسل (الموتر) | (لا أحد،) | int32 | |
المسارات/is_crowd | الموتر | منطقي | ||
المسارات/scale_category | الموتر | خيط | ||
المسارات/track_id | الموتر | int32 | ||
فيديو | فيديو (صورة) | (لا يوجد، 480، 640، 3) | uint8 |
تاو/full_resolution
وصف التكوين : إصدار الدقة الكاملة لمجموعة البيانات.
هيكل الميزة :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع D | وصف |
---|---|---|---|---|
المميزاتDict | ||||
البيانات الوصفية | المميزاتDict | |||
البيانات الوصفية/مجموعة البيانات | الموتر | خيط | ||
البيانات الوصفية/الارتفاع | الموتر | int32 | ||
البيانات الوصفية/neg_category_ids | الموتر | (لا أحد،) | int32 | |
البيانات الوصفية/not_exhaustive_category_ids | الموتر | (لا أحد،) | int32 | |
البيانات الوصفية/num_frames | الموتر | int32 | ||
البيانات الوصفية/video_name | الموتر | خيط | ||
البيانات الوصفية/العرض | الموتر | int32 | ||
المسارات | تسلسل | |||
المسارات/صناديق | التسلسل (ميزة BBox) | (لا شيء، 4) | float32 | |
المسارات/الفئة | ClassLabel | int64 | ||
المسارات/الإطارات | التسلسل (الموتر) | (لا أحد،) | int32 | |
المسارات/is_crowd | الموتر | منطقي | ||
المسارات/scale_category | الموتر | خيط | ||
المسارات/track_id | الموتر | int32 | ||
فيديو | فيديو (صورة) | (لا شيء، لا شيء، لا شيء، 3) | uint8 |