- الوصف :
Youtube-vis هي مجموعة بيانات تجزئة مثيل الفيديو. يحتوي على 2883 مقطع فيديو YouTube عالي الدقة ، ومجموعة تصنيف لكل بكسل تتضمن 40 عنصرًا شائعًا مثل الأشخاص والحيوانات والمركبات و 4883 حالة فيديو فريدة و 131 كيلو من التعليقات التوضيحية اليدوية عالية الجودة.
يتم تقسيم مجموعة بيانات YouTube-VIS إلى 2238 مقطع فيديو تدريبي و 302 مقطع فيديو للتحقق و 343 مقطع فيديو اختبار.
لم تتم إزالة أي ملفات أو تغييرها أثناء المعالجة المسبقة.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://youtube-vos.org/dataset/vis/
شفرة المصدر :
tfds.video.youtube_vis.YoutubeVis
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التنزيل :
Unknown size
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعدادات الافتراضية على~/tensorflow_datasets/downloads/manual/
):
يرجى تنزيل جميع الملفات الخاصة بإصدار 2019 من مجموعة البيانات (test_all_frames.zip ، test.json ، train_all_frames.zip ، train.json ، valid_all_frames.zip ، valid.json) من موقع youtube-vis على الويب وانقلها إلى ~ / tensorflow_datasets / التنزيلات / دليل /.
لاحظ أن الصفحة المقصودة لمجموعة البيانات موجودة على https://youtube-vos.org/dataset/vis/ ، وستتم إعادة توجيهك بعد ذلك إلى صفحة على https://competitions.codalab.org حيث يمكنك تنزيل إصدار 2019 من مجموعة البيانات. ستحتاج إلى إنشاء حساب على codalab لتنزيل البيانات. لاحظ أنه في وقت كتابة هذا ، ستحتاج إلى تجاوز تحذير "الاتصال غير آمن" عند الوصول إلى codalab.
التخزين المؤقت التلقائي ( التوثيق ): لا
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis / كامل (التكوين الافتراضي)
وصف التكوين : إصدار الدقة الكاملة لمجموعة البيانات ، مع تضمين جميع الإطارات ، بما في ذلك تلك التي لا تحتوي على ملصقات.
حجم مجموعة البيانات :
33.31 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 343 |
'train' | 2،238 |
'validation' | 302 |
- هيكل الميزة :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
البيانات الوصفية | الميزات | |||
البيانات الوصفية / الارتفاع | موتر | int32 | ||
البيانات الوصفية / عدد الإطارات | موتر | int32 | ||
البيانات الوصفية / اسم_الفيديو | موتر | سلسلة | ||
البيانات الوصفية / العرض | موتر | int32 | ||
المسارات | تسلسل | |||
المسارات / المناطق | تسلسل (موتر) | (لا أحد،) | تعويم 32 | |
المسارات / bboxes | تسلسل (ميزة BBox) | (لا شيء ، 4) | تعويم 32 | |
المسارات / الفئة | ClassLabel | int64 | ||
المسارات / الإطارات | تسلسل (موتر) | (لا أحد،) | int32 | |
المسارات / is_crowd | موتر | منطقي | ||
المسارات / التجزئة | فيديو (صورة) | (لا شيء ، لا شيء ، لا شيء ، 1) | uint8 | |
فيديو | فيديو (صورة) | (لا شيء ، لا شيء ، لا شيء ، 3) | uint8 |
- أمثلة ( tfds.as_dataframe ):
youtube_vis / 480_640_full
وصف التكوين : يتم تغيير حجم جميع الصور بشكل ثنائي إلى 480 × 640 مع تضمين جميع الإطارات.
حجم مجموعة البيانات :
130.02 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 343 |
'train' | 2،238 |
'validation' | 302 |
- هيكل الميزة :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
البيانات الوصفية | الميزات | |||
البيانات الوصفية / الارتفاع | موتر | int32 | ||
البيانات الوصفية / عدد الإطارات | موتر | int32 | ||
البيانات الوصفية / اسم_الفيديو | موتر | سلسلة | ||
البيانات الوصفية / العرض | موتر | int32 | ||
المسارات | تسلسل | |||
المسارات / المناطق | تسلسل (موتر) | (لا أحد،) | تعويم 32 | |
المسارات / bboxes | تسلسل (ميزة BBox) | (لا شيء ، 4) | تعويم 32 | |
المسارات / الفئة | ClassLabel | int64 | ||
المسارات / الإطارات | تسلسل (موتر) | (لا أحد،) | int32 | |
المسارات / is_crowd | موتر | منطقي | ||
المسارات / التجزئة | فيديو (صورة) | (لا شيء ، 480 ، 640 ، 1) | uint8 | |
فيديو | فيديو (صورة) | (لا شيء ، 480 ، 640 ، 3) | uint8 |
- أمثلة ( tfds.as_dataframe ):
youtube_vis / 480_640_only_frames_with_labels
وصف التكوين : يتم تغيير حجم جميع الصور بشكل ثنائي إلى 480 × 640 مع الإطارات التي تحتوي على ملصقات فقط.
حجم مجموعة البيانات :
26.27 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 343 |
'train' | 2،238 |
'validation' | 302 |
- هيكل الميزة :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
البيانات الوصفية | الميزات | |||
البيانات الوصفية / الارتفاع | موتر | int32 | ||
البيانات الوصفية / عدد الإطارات | موتر | int32 | ||
البيانات الوصفية / اسم_الفيديو | موتر | سلسلة | ||
البيانات الوصفية / العرض | موتر | int32 | ||
المسارات | تسلسل | |||
المسارات / المناطق | تسلسل (موتر) | (لا أحد،) | تعويم 32 | |
المسارات / bboxes | تسلسل (ميزة BBox) | (لا شيء ، 4) | تعويم 32 | |
المسارات / الفئة | ClassLabel | int64 | ||
المسارات / الإطارات | تسلسل (موتر) | (لا أحد،) | int32 | |
المسارات / is_crowd | موتر | منطقي | ||
المسارات / التجزئة | فيديو (صورة) | (لا شيء ، 480 ، 640 ، 1) | uint8 | |
فيديو | فيديو (صورة) | (لا شيء ، 480 ، 640 ، 3) | uint8 |
- أمثلة ( tfds.as_dataframe ):
youtube_vis / only_frames_with_labels
وصف التكوين : فقط الصور التي تحتوي على تسميات مضمنة بدقة أصلية.
حجم مجموعة البيانات :
6.91 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 343 |
'train' | 2،238 |
'validation' | 302 |
- هيكل الميزة :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
البيانات الوصفية | الميزات | |||
البيانات الوصفية / الارتفاع | موتر | int32 | ||
البيانات الوصفية / عدد الإطارات | موتر | int32 | ||
البيانات الوصفية / اسم_الفيديو | موتر | سلسلة | ||
البيانات الوصفية / العرض | موتر | int32 | ||
المسارات | تسلسل | |||
المسارات / المناطق | تسلسل (موتر) | (لا أحد،) | تعويم 32 | |
المسارات / bboxes | تسلسل (ميزة BBox) | (لا شيء ، 4) | تعويم 32 | |
المسارات / الفئة | ClassLabel | int64 | ||
المسارات / الإطارات | تسلسل (موتر) | (لا أحد،) | int32 | |
المسارات / is_crowd | موتر | منطقي | ||
المسارات / التجزئة | فيديو (صورة) | (لا شيء ، لا شيء ، لا شيء ، 1) | uint8 | |
فيديو | فيديو (صورة) | (لا شيء ، لا شيء ، لا شيء ، 3) | uint8 |
- أمثلة ( tfds.as_dataframe ):
youtube_vis / full_train_split
وصف التكوين : إصدار الدقة الكاملة لمجموعة البيانات ، مع تضمين جميع الإطارات ، بما في ذلك تلك التي لا تحتوي على ملصقات. يتم تصنيع فتحات الصمام والاختبار من بيانات التدريب.
حجم مجموعة البيانات :
26.09 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 200 |
'train' | 1،838 |
'validation' | 200 |
- هيكل الميزة :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
البيانات الوصفية | الميزات | |||
البيانات الوصفية / الارتفاع | موتر | int32 | ||
البيانات الوصفية / عدد الإطارات | موتر | int32 | ||
البيانات الوصفية / اسم_الفيديو | موتر | سلسلة | ||
البيانات الوصفية / العرض | موتر | int32 | ||
المسارات | تسلسل | |||
المسارات / المناطق | تسلسل (موتر) | (لا أحد،) | تعويم 32 | |
المسارات / bboxes | تسلسل (ميزة BBox) | (لا شيء ، 4) | تعويم 32 | |
المسارات / الفئة | ClassLabel | int64 | ||
المسارات / الإطارات | تسلسل (موتر) | (لا أحد،) | int32 | |
المسارات / is_crowd | موتر | منطقي | ||
المسارات / التجزئة | فيديو (صورة) | (لا شيء ، لا شيء ، لا شيء ، 1) | uint8 | |
فيديو | فيديو (صورة) | (لا شيء ، لا شيء ، لا شيء ، 3) | uint8 |
- أمثلة ( tfds.as_dataframe ):
youtube_vis / 480_640_full_train_split
وصف التكوين : يتم تغيير حجم جميع الصور بشكل ثنائي إلى 480 × 640 مع تضمين جميع الإطارات. يتم تصنيع فتحات الصمام والاختبار من بيانات التدريب.
حجم مجموعة البيانات :
101.57 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 200 |
'train' | 1،838 |
'validation' | 200 |
- هيكل الميزة :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
البيانات الوصفية | الميزات | |||
البيانات الوصفية / الارتفاع | موتر | int32 | ||
البيانات الوصفية / عدد الإطارات | موتر | int32 | ||
البيانات الوصفية / اسم_الفيديو | موتر | سلسلة | ||
البيانات الوصفية / العرض | موتر | int32 | ||
المسارات | تسلسل | |||
المسارات / المناطق | تسلسل (موتر) | (لا أحد،) | تعويم 32 | |
المسارات / bboxes | تسلسل (ميزة BBox) | (لا شيء ، 4) | تعويم 32 | |
المسارات / الفئة | ClassLabel | int64 | ||
المسارات / الإطارات | تسلسل (موتر) | (لا أحد،) | int32 | |
المسارات / is_crowd | موتر | منطقي | ||
المسارات / التجزئة | فيديو (صورة) | (لا شيء ، 480 ، 640 ، 1) | uint8 | |
فيديو | فيديو (صورة) | (لا شيء ، 480 ، 640 ، 3) | uint8 |
- أمثلة ( tfds.as_dataframe ):
youtube_vis / 480_640_only_frames_with_labels_train_split
وصف التكوين : يتم تغيير حجم جميع الصور بشكل ثنائي إلى 480 × 640 مع الإطارات التي تحتوي على ملصقات فقط. يتم تصنيع فتحات الصمام والاختبار من بيانات التدريب.
حجم مجموعة البيانات :
20.55 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 200 |
'train' | 1،838 |
'validation' | 200 |
- هيكل الميزة :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
البيانات الوصفية | الميزات | |||
البيانات الوصفية / الارتفاع | موتر | int32 | ||
البيانات الوصفية / عدد الإطارات | موتر | int32 | ||
البيانات الوصفية / اسم_الفيديو | موتر | سلسلة | ||
البيانات الوصفية / العرض | موتر | int32 | ||
المسارات | تسلسل | |||
المسارات / المناطق | تسلسل (موتر) | (لا أحد،) | تعويم 32 | |
المسارات / bboxes | تسلسل (ميزة BBox) | (لا شيء ، 4) | تعويم 32 | |
المسارات / الفئة | ClassLabel | int64 | ||
المسارات / الإطارات | تسلسل (موتر) | (لا أحد،) | int32 | |
المسارات / is_crowd | موتر | منطقي | ||
المسارات / التجزئة | فيديو (صورة) | (لا شيء ، 480 ، 640 ، 1) | uint8 | |
فيديو | فيديو (صورة) | (لا شيء ، 480 ، 640 ، 3) | uint8 |
- أمثلة ( tfds.as_dataframe ):
youtube_vis / only_frames_with_labels_train_split
وصف التكوين : فقط الصور التي تحتوي على تسميات مضمنة بدقة أصلية. يتم تصنيع فتحات الصمام والاختبار من بيانات التدريب.
حجم مجموعة البيانات :
5.46 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 200 |
'train' | 1،838 |
'validation' | 200 |
- هيكل الميزة :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
البيانات الوصفية | الميزات | |||
البيانات الوصفية / الارتفاع | موتر | int32 | ||
البيانات الوصفية / عدد الإطارات | موتر | int32 | ||
البيانات الوصفية / اسم_الفيديو | موتر | سلسلة | ||
البيانات الوصفية / العرض | موتر | int32 | ||
المسارات | تسلسل | |||
المسارات / المناطق | تسلسل (موتر) | (لا أحد،) | تعويم 32 | |
المسارات / bboxes | تسلسل (ميزة BBox) | (لا شيء ، 4) | تعويم 32 | |
المسارات / الفئة | ClassLabel | int64 | ||
المسارات / الإطارات | تسلسل (موتر) | (لا أحد،) | int32 | |
المسارات / is_crowd | موتر | منطقي | ||
المسارات / التجزئة | فيديو (صورة) | (لا شيء ، لا شيء ، لا شيء ، 1) | uint8 | |
فيديو | فيديو (صورة) | (لا شيء ، لا شيء ، لا شيء ، 3) | uint8 |
- أمثلة ( tfds.as_dataframe ):