- विवरण :
Youtube-vis एक वीडियो इंस्टेंस सेगमेंटेशन डेटासेट है। इसमें 2,883 उच्च-रिज़ॉल्यूशन YouTube वीडियो, एक प्रति-पिक्सेल श्रेणी लेबल सेट शामिल है जिसमें 40 सामान्य वस्तुएं जैसे व्यक्ति, जानवर और वाहन, 4,883 अद्वितीय वीडियो उदाहरण और 131k उच्च-गुणवत्ता वाले मैनुअल एनोटेशन शामिल हैं।
YouTube-VIS डेटासेट 2,238 प्रशिक्षण वीडियो, 302 सत्यापन वीडियो और 343 परीक्षण वीडियो में विभाजित है।
प्रीप्रोसेसिंग के दौरान कोई फाइल हटाई या बदली नहीं गई थी।
होमपेज : https://youtube-vos.org/dataset/vis/
स्रोत कोड :
tfds.video.youtube_vis.YoutubeVis
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
Unknown size
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir
(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/
) में डाउनलोड करना होगा:
कृपया youtube-विज़ वेबसाइट से डेटासेट के 2019 संस्करण (test_all_frames.zip, test.json, train_all_frames.zip, train.json,Valid_all_frames.zip,Valid.json) के लिए सभी फ़ाइलें डाउनलोड करें और उन्हें ~/tensorflow_datasets/ पर ले जाएं डाउनलोड/मैनुअल/.
ध्यान दें कि डेटासेट लैंडिंग पेज https://youtube-vos.org/dataset/vis/ पर स्थित है, और फिर यह आपको https://competitions.codalab.org पर एक पेज पर रीडायरेक्ट करेगा जहां आप 2019 संस्करण डाउनलोड कर सकते हैं डेटासेट का। डेटा डाउनलोड करने के लिए आपको कोडलैब पर अकाउंट बनाना होगा। ध्यान दें कि इसे लिखते समय, आपको कोडलैब एक्सेस करते समय "कनेक्शन सुरक्षित नहीं है" चेतावनी को बायपास करना होगा।
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis/पूर्ण (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फिग विवरण : डेटासेट का पूर्ण रिज़ॉल्यूशन संस्करण, बिना लेबल वाले सहित सभी फ़्रेमों के साथ।
डेटासेट का आकार :
33.31 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 343 |
'train' | 2,238 |
'validation' | 302 |
- फ़ीचर संरचना :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
मेटाडाटा | विशेषताएं डिक्ट | |||
मेटाडेटा/ऊंचाई | टेन्सर | int32 | ||
मेटाडेटा/num_frames | टेन्सर | int32 | ||
मेटाडेटा/video_name | टेन्सर | डोरी | ||
मेटाडेटा/चौड़ाई | टेन्सर | int32 | ||
पटरियों | क्रम | |||
ट्रैक / क्षेत्र | अनुक्रम (टेंसर) | (कोई भी नहीं,) | फ्लोट32 | |
ट्रैक / बॉक्स | अनुक्रम (BBoxFeature) | (कोई नहीं, 4) | फ्लोट32 | |
ट्रैक / श्रेणी | क्लासलेबल | int64 | ||
ट्रैक / फ्रेम | अनुक्रम (टेंसर) | (कोई भी नहीं,) | int32 | |
ट्रैक/is_crowd | टेन्सर | बूल | ||
ट्रैक/सेगमेंटेशन | वीडियो (छवि) | (कोई नहीं, कोई नहीं, कोई नहीं, 1) | uint8 | |
वीडियो | वीडियो (छवि) | (कोई नहीं, कोई नहीं, कोई नहीं, 3) | uint8 |
- उदाहरण ( tfds.as_dataframe ):
यूट्यूब_विज़/480_640_फुल
कॉन्फ़िगरेशन विवरण : सभी छवियों को शामिल किए गए सभी फ़्रेमों के साथ 480 X 640 में द्विरेखीय आकार दिया गया है।
डेटासेट का आकार :
130.02 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 343 |
'train' | 2,238 |
'validation' | 302 |
- फ़ीचर संरचना :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
मेटाडाटा | विशेषताएं डिक्ट | |||
मेटाडेटा/ऊंचाई | टेन्सर | int32 | ||
मेटाडेटा/num_frames | टेन्सर | int32 | ||
मेटाडेटा/video_name | टेन्सर | डोरी | ||
मेटाडेटा/चौड़ाई | टेन्सर | int32 | ||
पटरियों | क्रम | |||
ट्रैक / क्षेत्र | अनुक्रम (टेंसर) | (कोई भी नहीं,) | फ्लोट32 | |
ट्रैक / बॉक्स | अनुक्रम (BBoxFeature) | (कोई नहीं, 4) | फ्लोट32 | |
ट्रैक / श्रेणी | क्लासलेबल | int64 | ||
ट्रैक / फ्रेम | अनुक्रम (टेंसर) | (कोई भी नहीं,) | int32 | |
ट्रैक/is_crowd | टेन्सर | बूल | ||
ट्रैक/सेगमेंटेशन | वीडियो (छवि) | (कोई नहीं, 480, 640, 1) | uint8 | |
वीडियो | वीडियो (छवि) | (कोई नहीं, 480, 640, 3) | uint8 |
- उदाहरण ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels
कॉन्फिग विवरण : सभी छवियों को बिलिनियरली 480 X 640 में आकार दिया गया है जिसमें केवल लेबल वाले फ्रेम शामिल हैं।
डेटासेट का आकार :
26.27 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 343 |
'train' | 2,238 |
'validation' | 302 |
- फ़ीचर संरचना :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
मेटाडाटा | विशेषताएं डिक्ट | |||
मेटाडेटा/ऊंचाई | टेन्सर | int32 | ||
मेटाडेटा/num_frames | टेन्सर | int32 | ||
मेटाडेटा/video_name | टेन्सर | डोरी | ||
मेटाडेटा/चौड़ाई | टेन्सर | int32 | ||
पटरियों | क्रम | |||
ट्रैक / क्षेत्र | अनुक्रम (टेंसर) | (कोई भी नहीं,) | फ्लोट32 | |
ट्रैक / बॉक्स | अनुक्रम (BBoxFeature) | (कोई नहीं, 4) | फ्लोट32 | |
ट्रैक / श्रेणी | क्लासलेबल | int64 | ||
ट्रैक / फ्रेम | अनुक्रम (टेंसर) | (कोई भी नहीं,) | int32 | |
ट्रैक/is_crowd | टेन्सर | बूल | ||
ट्रैक/सेगमेंटेशन | वीडियो (छवि) | (कोई नहीं, 480, 640, 1) | uint8 | |
वीडियो | वीडियो (छवि) | (कोई नहीं, 480, 640, 3) | uint8 |
- उदाहरण ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels
कॉन्फिग विवरण : केवल वे चित्र जिनके लेबल उनके नेटिव रिजोल्यूशन में शामिल हैं।
डेटासेट का आकार :
6.91 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 343 |
'train' | 2,238 |
'validation' | 302 |
- फ़ीचर संरचना :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
मेटाडाटा | विशेषताएं डिक्ट | |||
मेटाडेटा/ऊंचाई | टेन्सर | int32 | ||
मेटाडेटा/num_frames | टेन्सर | int32 | ||
मेटाडेटा/video_name | टेन्सर | डोरी | ||
मेटाडेटा/चौड़ाई | टेन्सर | int32 | ||
पटरियों | क्रम | |||
ट्रैक / क्षेत्र | अनुक्रम (टेंसर) | (कोई भी नहीं,) | फ्लोट32 | |
ट्रैक / बॉक्स | अनुक्रम (BBoxFeature) | (कोई नहीं, 4) | फ्लोट32 | |
ट्रैक / श्रेणी | क्लासलेबल | int64 | ||
ट्रैक / फ्रेम | अनुक्रम (टेंसर) | (कोई भी नहीं,) | int32 | |
ट्रैक/is_crowd | टेन्सर | बूल | ||
ट्रैक/सेगमेंटेशन | वीडियो (छवि) | (कोई नहीं, कोई नहीं, कोई नहीं, 1) | uint8 | |
वीडियो | वीडियो (छवि) | (कोई नहीं, कोई नहीं, कोई नहीं, 3) | uint8 |
- उदाहरण ( tfds.as_dataframe ):
youtube_vis/full_train_split
कॉन्फिग विवरण : डेटासेट का पूर्ण रिज़ॉल्यूशन संस्करण, बिना लेबल वाले सहित सभी फ़्रेमों के साथ। वैल और टेस्ट स्प्लिट प्रशिक्षण डेटा से निर्मित होते हैं।
डेटासेट का आकार :
26.09 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- फ़ीचर संरचना :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
मेटाडाटा | विशेषताएं डिक्ट | |||
मेटाडेटा/ऊंचाई | टेन्सर | int32 | ||
मेटाडेटा/num_frames | टेन्सर | int32 | ||
मेटाडेटा/video_name | टेन्सर | डोरी | ||
मेटाडेटा/चौड़ाई | टेन्सर | int32 | ||
पटरियों | क्रम | |||
ट्रैक / क्षेत्र | अनुक्रम (टेंसर) | (कोई भी नहीं,) | फ्लोट32 | |
ट्रैक / बॉक्स | अनुक्रम (BBoxFeature) | (कोई नहीं, 4) | फ्लोट32 | |
ट्रैक / श्रेणी | क्लासलेबल | int64 | ||
ट्रैक / फ्रेम | अनुक्रम (टेंसर) | (कोई भी नहीं,) | int32 | |
ट्रैक/is_crowd | टेन्सर | बूल | ||
ट्रैक/सेगमेंटेशन | वीडियो (छवि) | (कोई नहीं, कोई नहीं, कोई नहीं, 1) | uint8 | |
वीडियो | वीडियो (छवि) | (कोई नहीं, कोई नहीं, कोई नहीं, 3) | uint8 |
- उदाहरण ( tfds.as_dataframe ):
youtube_vis/480_640_full_train_split
कॉन्फ़िगरेशन विवरण : सभी छवियों को शामिल किए गए सभी फ़्रेमों के साथ 480 X 640 में द्विरेखीय आकार दिया गया है। वैल और टेस्ट स्प्लिट प्रशिक्षण डेटा से निर्मित होते हैं।
डेटासेट का आकार :
101.57 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- फ़ीचर संरचना :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
मेटाडाटा | विशेषताएं डिक्ट | |||
मेटाडेटा/ऊंचाई | टेन्सर | int32 | ||
मेटाडेटा/num_frames | टेन्सर | int32 | ||
मेटाडेटा/video_name | टेन्सर | डोरी | ||
मेटाडेटा/चौड़ाई | टेन्सर | int32 | ||
पटरियों | क्रम | |||
ट्रैक / क्षेत्र | अनुक्रम (टेंसर) | (कोई भी नहीं,) | फ्लोट32 | |
ट्रैक / बॉक्स | अनुक्रम (BBoxFeature) | (कोई नहीं, 4) | फ्लोट32 | |
ट्रैक / श्रेणी | क्लासलेबल | int64 | ||
ट्रैक / फ्रेम | अनुक्रम (टेंसर) | (कोई भी नहीं,) | int32 | |
ट्रैक/is_crowd | टेन्सर | बूल | ||
ट्रैक/सेगमेंटेशन | वीडियो (छवि) | (कोई नहीं, 480, 640, 1) | uint8 | |
वीडियो | वीडियो (छवि) | (कोई नहीं, 480, 640, 3) | uint8 |
- उदाहरण ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels_train_split
कॉन्फिग विवरण : सभी छवियों को बिलिनियरली 480 X 640 में आकार दिया गया है जिसमें केवल लेबल वाले फ्रेम शामिल हैं। वैल और टेस्ट स्प्लिट प्रशिक्षण डेटा से निर्मित होते हैं।
डेटासेट का आकार :
20.55 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- फ़ीचर संरचना :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
मेटाडाटा | विशेषताएं डिक्ट | |||
मेटाडेटा/ऊंचाई | टेन्सर | int32 | ||
मेटाडेटा/num_frames | टेन्सर | int32 | ||
मेटाडेटा/video_name | टेन्सर | डोरी | ||
मेटाडेटा/चौड़ाई | टेन्सर | int32 | ||
पटरियों | क्रम | |||
ट्रैक / क्षेत्र | अनुक्रम (टेंसर) | (कोई भी नहीं,) | फ्लोट32 | |
ट्रैक / बॉक्स | अनुक्रम (BBoxFeature) | (कोई नहीं, 4) | फ्लोट32 | |
ट्रैक / श्रेणी | क्लासलेबल | int64 | ||
ट्रैक / फ्रेम | अनुक्रम (टेंसर) | (कोई भी नहीं,) | int32 | |
ट्रैक/is_crowd | टेन्सर | बूल | ||
ट्रैक/सेगमेंटेशन | वीडियो (छवि) | (कोई नहीं, 480, 640, 1) | uint8 | |
वीडियो | वीडियो (छवि) | (कोई नहीं, 480, 640, 3) | uint8 |
- उदाहरण ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels_train_split
कॉन्फिग विवरण : केवल वे चित्र जिनके लेबल उनके नेटिव रिजोल्यूशन में शामिल हैं। वैल और टेस्ट स्प्लिट प्रशिक्षण डेटा से निर्मित होते हैं।
डेटासेट का आकार :
5.46 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 200 |
'train' | 1,838 |
'validation' | 200 |
- फ़ीचर संरचना :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
मेटाडाटा | विशेषताएं डिक्ट | |||
मेटाडेटा/ऊंचाई | टेन्सर | int32 | ||
मेटाडेटा/num_frames | टेन्सर | int32 | ||
मेटाडेटा/video_name | टेन्सर | डोरी | ||
मेटाडेटा/चौड़ाई | टेन्सर | int32 | ||
पटरियों | क्रम | |||
ट्रैक / क्षेत्र | अनुक्रम (टेंसर) | (कोई भी नहीं,) | फ्लोट32 | |
ट्रैक / बॉक्स | अनुक्रम (BBoxFeature) | (कोई नहीं, 4) | फ्लोट32 | |
ट्रैक / श्रेणी | क्लासलेबल | int64 | ||
ट्रैक / फ्रेम | अनुक्रम (टेंसर) | (कोई भी नहीं,) | int32 | |
ट्रैक/is_crowd | टेन्सर | बूल | ||
ट्रैक/सेगमेंटेशन | वीडियो (छवि) | (कोई नहीं, कोई नहीं, कोई नहीं, 1) | uint8 | |
वीडियो | वीडियो (छवि) | (कोई नहीं, कोई नहीं, कोई नहीं, 3) | uint8 |
- उदाहरण ( tfds.as_dataframe ):