- Deskripsi :
Youtube-vis adalah kumpulan data segmentasi instance video. Ini berisi 2.883 video YouTube beresolusi tinggi, kumpulan label kategori per piksel yang mencakup 40 objek umum seperti orang, hewan, dan kendaraan, 4.883 contoh video unik, dan 131 ribu anotasi manual berkualitas tinggi.
Dataset YouTube-VIS dibagi menjadi 2.238 video pelatihan, 302 video validasi, dan 343 video pengujian.
Tidak ada file yang dihapus atau diubah selama pemrosesan awal.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://youtube-vos.org/dataset/vis/
Kode sumber :
tfds.video.youtube_vis.YoutubeVis
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
Unknown size
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):
Unduh semua file untuk set data versi 2019 (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) dari situs web youtube-vis dan pindahkan ke ~/tensorflow_datasets/ download/manual/.
Perhatikan bahwa halaman arahan kumpulan data terletak di https://youtube-vos.org/dataset/vis/, dan kemudian akan mengarahkan Anda ke halaman di https://competitions.codalab.org tempat Anda dapat mengunduh versi 2019 dari kumpulan data. Anda harus membuat akun di codalab untuk mengunduh data. Perhatikan bahwa pada saat penulisan ini, Anda harus mengabaikan peringatan "Koneksi tidak aman" saat mengakses codalab.
Di-cache otomatis ( dokumentasi ): Tidak
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis/full (konfigurasi default)
Deskripsi konfigurasi : Versi resolusi penuh dari kumpulan data, dengan semua bingkai, termasuk yang tanpa label, disertakan.
Ukuran dataset :
33.31 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Struktur fitur :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
metadata | fiturDict | |||
metadata/tinggi | Tensor | int32 | ||
metadata/num_frames | Tensor | int32 | ||
metadata/nama_video | Tensor | rangkaian | ||
metadata/lebar | Tensor | int32 | ||
trek | Urutan | |||
jalur/area | Urutan (Tensor) | (Tidak ada,) | float32 | |
track/bbox | Urutan (Fitur BBox) | (Tidak ada, 4) | float32 | |
trek/kategori | LabelKelas | int64 | ||
track/frame | Urutan (Tensor) | (Tidak ada,) | int32 | |
track/is_crowd | Tensor | bool | ||
trek/segmentasi | Video(Gambar) | (Tidak ada, Tidak ada, Tidak ada, 1) | uint8 | |
video | Video(Gambar) | (Tidak ada, Tidak ada, Tidak ada, 3) | uint8 |
- Contoh ( tfds.as_dataframe ):
youtube_vis/480_640_full
Deskripsi konfigurasi : Semua gambar diubah ukurannya secara bilinear menjadi 480 X 640 dengan menyertakan semua bingkai.
Ukuran dataset :
130.02 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Struktur fitur :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
metadata | fiturDict | |||
metadata/tinggi | Tensor | int32 | ||
metadata/num_frames | Tensor | int32 | ||
metadata/nama_video | Tensor | rangkaian | ||
metadata/lebar | Tensor | int32 | ||
trek | Urutan | |||
jalur/area | Urutan (Tensor) | (Tidak ada,) | float32 | |
track/bbox | Urutan (Fitur BBox) | (Tidak ada, 4) | float32 | |
trek/kategori | LabelKelas | int64 | ||
track/frame | Urutan (Tensor) | (Tidak ada,) | int32 | |
track/is_crowd | Tensor | bool | ||
trek/segmentasi | Video(Gambar) | (Tidak ada, 480, 640, 1) | uint8 | |
video | Video(Gambar) | (Tidak ada, 480, 640, 3) | uint8 |
- Contoh ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels
Deskripsi konfigurasi : Semua gambar diubah ukurannya secara bilinear menjadi 480 X 640 hanya dengan bingkai dengan label yang disertakan.
Ukuran dataset :
26.27 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Struktur fitur :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
metadata | fiturDict | |||
metadata/tinggi | Tensor | int32 | ||
metadata/num_frames | Tensor | int32 | ||
metadata/nama_video | Tensor | rangkaian | ||
metadata/lebar | Tensor | int32 | ||
trek | Urutan | |||
jalur/area | Urutan (Tensor) | (Tidak ada,) | float32 | |
track/bbox | Urutan (Fitur BBox) | (Tidak ada, 4) | float32 | |
trek/kategori | LabelKelas | int64 | ||
track/frame | Urutan (Tensor) | (Tidak ada,) | int32 | |
track/is_crowd | Tensor | bool | ||
trek/segmentasi | Video(Gambar) | (Tidak ada, 480, 640, 1) | uint8 | |
video | Video(Gambar) | (Tidak ada, 480, 640, 3) | uint8 |
- Contoh ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels
Deskripsi konfigurasi : Hanya gambar dengan label yang disertakan pada resolusi aslinya.
Ukuran dataset :
6.91 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Struktur fitur :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
metadata | fiturDict | |||
metadata/tinggi | Tensor | int32 | ||
metadata/num_frames | Tensor | int32 | ||
metadata/nama_video | Tensor | rangkaian | ||
metadata/lebar | Tensor | int32 | ||
trek | Urutan | |||
jalur/area | Urutan (Tensor) | (Tidak ada,) | float32 | |
track/bbox | Urutan (Fitur BBox) | (Tidak ada, 4) | float32 | |
trek/kategori | LabelKelas | int64 | ||
track/frame | Urutan (Tensor) | (Tidak ada,) | int32 | |
track/is_crowd | Tensor | bool | ||
trek/segmentasi | Video(Gambar) | (Tidak ada, Tidak ada, Tidak ada, 1) | uint8 | |
video | Video(Gambar) | (Tidak ada, Tidak ada, Tidak ada, 3) | uint8 |
- Contoh ( tfds.as_dataframe ):
youtube_vis/full_train_split
Deskripsi konfigurasi : Versi resolusi penuh dari kumpulan data, dengan semua bingkai, termasuk yang tanpa label, disertakan. Pemisahan val dan pengujian dibuat dari data pelatihan.
Ukuran dataset :
26.09 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Struktur fitur :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
metadata | fiturDict | |||
metadata/tinggi | Tensor | int32 | ||
metadata/num_frames | Tensor | int32 | ||
metadata/nama_video | Tensor | rangkaian | ||
metadata/lebar | Tensor | int32 | ||
trek | Urutan | |||
jalur/area | Urutan (Tensor) | (Tidak ada,) | float32 | |
track/bbox | Urutan (Fitur BBox) | (Tidak ada, 4) | float32 | |
trek/kategori | LabelKelas | int64 | ||
track/frame | Urutan (Tensor) | (Tidak ada,) | int32 | |
track/is_crowd | Tensor | bool | ||
trek/segmentasi | Video(Gambar) | (Tidak ada, Tidak ada, Tidak ada, 1) | uint8 | |
video | Video(Gambar) | (Tidak ada, Tidak ada, Tidak ada, 3) | uint8 |
- Contoh ( tfds.as_dataframe ):
youtube_vis/480_640_full_train_split
Deskripsi konfigurasi : Semua gambar diubah ukurannya secara bilinear menjadi 480 X 640 dengan menyertakan semua bingkai. Pemisahan val dan pengujian dibuat dari data pelatihan.
Ukuran dataset :
101.57 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Struktur fitur :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
metadata | fiturDict | |||
metadata/tinggi | Tensor | int32 | ||
metadata/num_frames | Tensor | int32 | ||
metadata/nama_video | Tensor | rangkaian | ||
metadata/lebar | Tensor | int32 | ||
trek | Urutan | |||
jalur/area | Urutan (Tensor) | (Tidak ada,) | float32 | |
track/bbox | Urutan (Fitur BBox) | (Tidak ada, 4) | float32 | |
trek/kategori | LabelKelas | int64 | ||
track/frame | Urutan (Tensor) | (Tidak ada,) | int32 | |
track/is_crowd | Tensor | bool | ||
trek/segmentasi | Video(Gambar) | (Tidak ada, 480, 640, 1) | uint8 | |
video | Video(Gambar) | (Tidak ada, 480, 640, 3) | uint8 |
- Contoh ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels_train_split
Deskripsi konfigurasi : Semua gambar diubah ukurannya secara bilinear menjadi 480 X 640 hanya dengan bingkai dengan label yang disertakan. Pemisahan val dan pengujian dibuat dari data pelatihan.
Ukuran dataset :
20.55 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Struktur fitur :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
metadata | fiturDict | |||
metadata/tinggi | Tensor | int32 | ||
metadata/num_frames | Tensor | int32 | ||
metadata/nama_video | Tensor | rangkaian | ||
metadata/lebar | Tensor | int32 | ||
trek | Urutan | |||
jalur/area | Urutan (Tensor) | (Tidak ada,) | float32 | |
track/bbox | Urutan (Fitur BBox) | (Tidak ada, 4) | float32 | |
trek/kategori | LabelKelas | int64 | ||
track/frame | Urutan (Tensor) | (Tidak ada,) | int32 | |
track/is_crowd | Tensor | bool | ||
trek/segmentasi | Video(Gambar) | (Tidak ada, 480, 640, 1) | uint8 | |
video | Video(Gambar) | (Tidak ada, 480, 640, 3) | uint8 |
- Contoh ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels_train_split
Deskripsi konfigurasi : Hanya gambar dengan label yang disertakan pada resolusi aslinya. Pemisahan val dan pengujian dibuat dari data pelatihan.
Ukuran dataset :
5.46 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Struktur fitur :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
metadata | fiturDict | |||
metadata/tinggi | Tensor | int32 | ||
metadata/num_frames | Tensor | int32 | ||
metadata/nama_video | Tensor | rangkaian | ||
metadata/lebar | Tensor | int32 | ||
trek | Urutan | |||
jalur/area | Urutan (Tensor) | (Tidak ada,) | float32 | |
track/bbox | Urutan (Fitur BBox) | (Tidak ada, 4) | float32 | |
trek/kategori | LabelKelas | int64 | ||
track/frame | Urutan (Tensor) | (Tidak ada,) | int32 | |
track/is_crowd | Tensor | bool | ||
trek/segmentasi | Video(Gambar) | (Tidak ada, Tidak ada, Tidak ada, 1) | uint8 | |
video | Video(Gambar) | (Tidak ada, Tidak ada, Tidak ada, 3) | uint8 |
- Contoh ( tfds.as_dataframe ):