- الوصف :
مجموعة بيانات TAO هي مجموعة بيانات كبيرة لاكتشاف كائن الفيديو تتكون من 2907 مقاطع فيديو عالية الدقة و 833 فئة كائن. لاحظ أن مجموعة البيانات هذه تتطلب 300 جيجابايت على الأقل من المساحة الخالية للتخزين.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية https://taodataset.org/
كود المصدر :
tfds.video.tao.Tao
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التحميل :
113.96 GiB
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعدادات الافتراضية على~/tensorflow_datasets/downloads/manual/
):
يجب تنزيل بعض ملفات TAO (مقاطع فيديو HVACS و AVA) يدويًا لأن تسجيل الدخول إلى MOT مطلوب. يرجى تنزيل وتلك البيانات باتباع الإرشادات الموجودة على https://motchallenge.net/tao_download.php
قم بتنزيل هذه البيانات وانقل ملفات .zip الناتجة إلى ~ / tensorflow_datasets / Downloads / manual /
إذا لم تكن البيانات التي تتطلب تنزيلًا يدويًا موجودة ، فسيتم تخطيها وسيتم استخدام البيانات التي لا تتطلب تنزيلًا يدويًا فقط.
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 500 |
'validation' | 988 |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{Dave_2020,
title={TAO: A Large-Scale Benchmark for Tracking Any Object},
ISBN={9783030585587},
ISSN={1611-3349},
url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
DOI={10.1007/978-3-030-58558-7_26},
journal={Lecture Notes in Computer Science},
publisher={Springer International Publishing},
author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
year={2020},
pages={436-454}
}
تاو / 480_640 (التكوين الافتراضي)
وصف التكوين : يتم تغيير حجم جميع الصور ثنائي الخط إلى 480 × 640
حجم مجموعة البيانات :
482.30 GiB
هيكل الميزة :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
البيانات الوصفية | الميزات | |||
البيانات الوصفية / مجموعة البيانات | موتر | سلسلة | ||
البيانات الوصفية / الارتفاع | موتر | int32 | ||
metadata / neg_category_ids | موتر | (لا أحد،) | int32 | |
البيانات الوصفية / not_exhaustive_category_ids | موتر | (لا أحد،) | int32 | |
البيانات الوصفية / عدد الإطارات | موتر | int32 | ||
البيانات الوصفية / اسم_الفيديو | موتر | سلسلة | ||
البيانات الوصفية / العرض | موتر | int32 | ||
المسارات | تسلسل | |||
المسارات / bboxes | تسلسل (ميزة BBox) | (لا شيء ، 4) | تعويم 32 | |
المسارات / الفئة | ClassLabel | int64 | ||
المسارات / الإطارات | تسلسل (موتر) | (لا أحد،) | int32 | |
المسارات / is_crowd | موتر | منطقي | ||
المسارات / scale_category | موتر | سلسلة | ||
المسارات / track_id | موتر | int32 | ||
فيديو | فيديو (صورة) | (لا شيء ، 480 ، 640 ، 3) | uint8 |
- أمثلة ( tfds.as_dataframe ):
تاو / full_resolution
وصف التكوين : إصدار الدقة الكاملة لمجموعة البيانات.
حجم مجموعة البيانات :
171.24 GiB
هيكل الميزة :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
البيانات الوصفية | الميزات | |||
البيانات الوصفية / مجموعة البيانات | موتر | سلسلة | ||
البيانات الوصفية / الارتفاع | موتر | int32 | ||
metadata / neg_category_ids | موتر | (لا أحد،) | int32 | |
البيانات الوصفية / not_exhaustive_category_ids | موتر | (لا أحد،) | int32 | |
البيانات الوصفية / عدد الإطارات | موتر | int32 | ||
البيانات الوصفية / اسم_الفيديو | موتر | سلسلة | ||
البيانات الوصفية / العرض | موتر | int32 | ||
المسارات | تسلسل | |||
المسارات / bboxes | تسلسل (ميزة BBox) | (لا شيء ، 4) | تعويم 32 | |
المسارات / الفئة | ClassLabel | int64 | ||
المسارات / الإطارات | تسلسل (موتر) | (لا أحد،) | int32 | |
المسارات / is_crowd | موتر | منطقي | ||
المسارات / scale_category | موتر | سلسلة | ||
المسارات / track_id | موتر | int32 | ||
فيديو | فيديو (صورة) | (لا شيء ، لا شيء ، لا شيء ، 3) | uint8 |
- أمثلة ( tfds.as_dataframe ):