- Açıklama :
Youtube-vis, bir video örneği segmentasyon veri kümesidir. 2.883 adet yüksek çözünürlüklü YouTube videosu, kişi, hayvan ve araç gibi 40 yaygın nesneyi içeren piksel başına bir kategori etiketi seti, 4.883 benzersiz video örneği ve 131.000 yüksek kaliteli manuel açıklama içerir.
YouTube-VIS veri seti, 2.238 eğitim videosu, 302 doğrulama videosu ve 343 test videosuna bölünmüştür.
Ön işleme sırasında hiçbir dosya kaldırılmadı veya değiştirilmedi.
Anasayfa : https://youtube-vos.org/dataset/vis/
Kaynak kodu :
tfds.video.youtube_vis.YoutubeVis
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
Unknown size
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine
download_config.manual_dir
gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
):
Lütfen veri kümesinin 2019 sürümü için tüm dosyaları (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) youtube-vis web sitesinden indirin ve ~/tensorflow_datasets/ konumuna taşıyın indirmeler/kılavuz/.
Veri kümesi açılış sayfasının https://youtube-vos.org/dataset/vis/ adresinde bulunduğunu ve ardından sizi https://competitions.codalab.org adresinde 2019 sürümünü indirebileceğiniz bir sayfaya yönlendireceğini unutmayın. veri kümesinin Verileri indirmek için codalab'da bir hesap oluşturmanız gerekecek. Bunu yazarken, codalab'a erişirken "Bağlantı güvenli değil" uyarısını atlamanız gerekeceğini unutmayın.
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis/full (varsayılan yapılandırma)
Yapılandırma açıklaması : Etiketsiz olanlar da dahil olmak üzere tüm çerçevelerle birlikte veri kümesinin tam çözünürlüklü sürümü.
Veri kümesi boyutu :
33.31 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Özellik yapısı :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
meta veri | ÖzelliklerDict | |||
meta veri/yükseklik | tensör | int32 | ||
meta veri/kare sayısı | tensör | int32 | ||
meta veri/video_adı | tensör | sicim | ||
meta veri/genişlik | tensör | int32 | ||
izler | Sekans | |||
izler/alanlar | Sıra(Tensor) | (Hiçbiri,) | şamandıra32 | |
parçalar/b kutuları | Sıra(BBoxFeature) | (Yok, 4) | şamandıra32 | |
parçalar/kategori | SınıfEtiketi | int64 | ||
izler/çerçeveler | Sıra(Tensor) | (Hiçbiri,) | int32 | |
track/is_crowd | tensör | bool | ||
izler/segmentasyonlar | Video(Resim) | (Yok, Yok, Yok, 1) | uint8 | |
video | Video(Resim) | (Yok, Yok, Yok, 3) | uint8 |
- Örnekler ( tfds.as_dataframe ):
youtube_vis/480_640_full
Yapılandırma açıklaması : Tüm görüntüler, tüm çerçeveler dahil olmak üzere çift doğrusal olarak 480 X 640 olarak yeniden boyutlandırılır.
Veri kümesi boyutu :
130.02 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Özellik yapısı :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
meta veri | ÖzelliklerDict | |||
meta veri/yükseklik | tensör | int32 | ||
meta veri/kare sayısı | tensör | int32 | ||
meta veri/video_adı | tensör | sicim | ||
meta veri/genişlik | tensör | int32 | ||
izler | Sekans | |||
izler/alanlar | Sıra(Tensor) | (Hiçbiri,) | şamandıra32 | |
parçalar/b kutuları | Sıra(BBoxFeature) | (Yok, 4) | şamandıra32 | |
parçalar/kategori | SınıfEtiketi | int64 | ||
izler/çerçeveler | Sıra(Tensor) | (Hiçbiri,) | int32 | |
track/is_crowd | tensör | bool | ||
izler/segmentasyonlar | Video(Resim) | (Yok, 480, 640, 1) | uint8 | |
video | Video(Resim) | (Yok, 480, 640, 3) | uint8 |
- Örnekler ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels
Yapılandırma açıklaması : Tüm görüntüler, yalnızca etiketli çerçeveler dahil olmak üzere çift doğrusal olarak 480 X 640 olarak yeniden boyutlandırılır.
Veri kümesi boyutu :
26.27 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Özellik yapısı :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
meta veri | ÖzelliklerDict | |||
meta veri/yükseklik | tensör | int32 | ||
meta veri/kare sayısı | tensör | int32 | ||
meta veri/video_adı | tensör | sicim | ||
meta veri/genişlik | tensör | int32 | ||
izler | Sekans | |||
izler/alanlar | Sıra(Tensor) | (Hiçbiri,) | şamandıra32 | |
parçalar/b kutuları | Sıra(BBoxFeature) | (Yok, 4) | şamandıra32 | |
parçalar/kategori | SınıfEtiketi | int64 | ||
izler/çerçeveler | Sıra(Tensor) | (Hiçbiri,) | int32 | |
track/is_crowd | tensör | bool | ||
izler/segmentasyonlar | Video(Resim) | (Yok, 480, 640, 1) | uint8 | |
video | Video(Resim) | (Yok, 480, 640, 3) | uint8 |
- Örnekler ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels
Yapılandırma açıklaması : Yalnızca kendi yerel çözünürlüklerinde dahil edilen etiketlere sahip görüntüler.
Veri kümesi boyutu :
6.91 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Özellik yapısı :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
meta veri | ÖzelliklerDict | |||
meta veri/yükseklik | tensör | int32 | ||
meta veri/kare sayısı | tensör | int32 | ||
meta veri/video_adı | tensör | sicim | ||
meta veri/genişlik | tensör | int32 | ||
izler | Sekans | |||
izler/alanlar | Sıra(Tensor) | (Hiçbiri,) | şamandıra32 | |
parçalar/b kutuları | Sıra(BBoxFeature) | (Yok, 4) | şamandıra32 | |
parçalar/kategori | SınıfEtiketi | int64 | ||
izler/çerçeveler | Sıra(Tensor) | (Hiçbiri,) | int32 | |
track/is_crowd | tensör | bool | ||
izler/segmentasyonlar | Video(Resim) | (Yok, Yok, Yok, 1) | uint8 | |
video | Video(Resim) | (Yok, Yok, Yok, 3) | uint8 |
- Örnekler ( tfds.as_dataframe ):
youtube_vis/full_train_split
Yapılandırma açıklaması : Etiketsiz olanlar da dahil olmak üzere tüm çerçevelerle birlikte veri kümesinin tam çözünürlüklü sürümü. Val ve test bölmeleri, eğitim verilerinden üretilir.
Veri kümesi boyutu :
26.09 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Özellik yapısı :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
meta veri | ÖzelliklerDict | |||
meta veri/yükseklik | tensör | int32 | ||
meta veri/kare sayısı | tensör | int32 | ||
meta veri/video_adı | tensör | sicim | ||
meta veri/genişlik | tensör | int32 | ||
izler | Sekans | |||
izler/alanlar | Sıra(Tensor) | (Hiçbiri,) | şamandıra32 | |
parçalar/b kutuları | Sıra(BBoxFeature) | (Yok, 4) | şamandıra32 | |
parçalar/kategori | SınıfEtiketi | int64 | ||
izler/çerçeveler | Sıra(Tensor) | (Hiçbiri,) | int32 | |
track/is_crowd | tensör | bool | ||
izler/segmentasyonlar | Video(Resim) | (Yok, Yok, Yok, 1) | uint8 | |
video | Video(Resim) | (Yok, Yok, Yok, 3) | uint8 |
- Örnekler ( tfds.as_dataframe ):
youtube_vis/480_640_full_train_split
Yapılandırma açıklaması : Tüm görüntüler, tüm çerçeveler dahil olmak üzere çift doğrusal olarak 480 X 640 olarak yeniden boyutlandırılır. Val ve test bölmeleri, eğitim verilerinden üretilir.
Veri kümesi boyutu :
101.57 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Özellik yapısı :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
meta veri | ÖzelliklerDict | |||
meta veri/yükseklik | tensör | int32 | ||
meta veri/kare sayısı | tensör | int32 | ||
meta veri/video_adı | tensör | sicim | ||
meta veri/genişlik | tensör | int32 | ||
izler | Sekans | |||
izler/alanlar | Sıra(Tensor) | (Hiçbiri,) | şamandıra32 | |
parçalar/b kutuları | Sıra(BBoxFeature) | (Yok, 4) | şamandıra32 | |
parçalar/kategori | SınıfEtiketi | int64 | ||
izler/çerçeveler | Sıra(Tensor) | (Hiçbiri,) | int32 | |
track/is_crowd | tensör | bool | ||
izler/segmentasyonlar | Video(Resim) | (Yok, 480, 640, 1) | uint8 | |
video | Video(Resim) | (Yok, 480, 640, 3) | uint8 |
- Örnekler ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels_train_split
Yapılandırma açıklaması : Tüm görüntüler, yalnızca etiketli çerçeveler dahil olmak üzere çift doğrusal olarak 480 X 640 olarak yeniden boyutlandırılır. Val ve test bölmeleri, eğitim verilerinden üretilir.
Veri kümesi boyutu :
20.55 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Özellik yapısı :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
meta veri | ÖzelliklerDict | |||
meta veri/yükseklik | tensör | int32 | ||
meta veri/kare sayısı | tensör | int32 | ||
meta veri/video_adı | tensör | sicim | ||
meta veri/genişlik | tensör | int32 | ||
izler | Sekans | |||
izler/alanlar | Sıra(Tensor) | (Hiçbiri,) | şamandıra32 | |
parçalar/b kutuları | Sıra(BBoxFeature) | (Yok, 4) | şamandıra32 | |
parçalar/kategori | SınıfEtiketi | int64 | ||
izler/çerçeveler | Sıra(Tensor) | (Hiçbiri,) | int32 | |
track/is_crowd | tensör | bool | ||
izler/segmentasyonlar | Video(Resim) | (Yok, 480, 640, 1) | uint8 | |
video | Video(Resim) | (Yok, 480, 640, 3) | uint8 |
- Örnekler ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels_train_split
Yapılandırma açıklaması : Yalnızca kendi yerel çözünürlüklerinde dahil edilen etiketlere sahip görüntüler. Val ve test bölmeleri, eğitim verilerinden üretilir.
Veri kümesi boyutu :
5.46 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Özellik yapısı :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
meta veri | ÖzelliklerDict | |||
meta veri/yükseklik | tensör | int32 | ||
meta veri/kare sayısı | tensör | int32 | ||
meta veri/video_adı | tensör | sicim | ||
meta veri/genişlik | tensör | int32 | ||
izler | Sekans | |||
izler/alanlar | Sıra(Tensor) | (Hiçbiri,) | şamandıra32 | |
parçalar/b kutuları | Sıra(BBoxFeature) | (Yok, 4) | şamandıra32 | |
parçalar/kategori | SınıfEtiketi | int64 | ||
izler/çerçeveler | Sıra(Tensor) | (Hiçbiri,) | int32 | |
track/is_crowd | tensör | bool | ||
izler/segmentasyonlar | Video(Resim) | (Yok, Yok, Yok, 1) | uint8 | |
video | Video(Resim) | (Yok, Yok, Yok, 3) | uint8 |
- Örnekler ( tfds.as_dataframe ):