- Mô tả :
Youtube-vis là tập dữ liệu phân đoạn phiên bản video. Nó chứa 2.883 video YouTube có độ phân giải cao, bộ nhãn danh mục trên mỗi pixel bao gồm 40 đối tượng phổ biến như người, động vật và xe cộ, 4.883 trường hợp video độc đáo và 131 nghìn chú thích thủ công chất lượng cao.
Bộ dữ liệu YouTube-VIS được chia thành 2.238 video đào tạo, 302 video xác thực và 343 video thử nghiệm.
Không có tệp nào bị xóa hoặc thay đổi trong quá trình tiền xử lý.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://youtube-vos.org/dataset/vis/
Mã nguồn :
tfds.video.youtube_vis.YoutubeVis
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
Unknown size
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Vui lòng tải xuống tất cả các tệp cho phiên bản 2019 của bộ dữ liệu (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) từ trang web youtube-vis và di chuyển chúng đến ~/tensorflow_datasets/ tải xuống/thủ công/.
Lưu ý rằng trang đích của tập dữ liệu được đặt tại https://youtube-vos.org/dataset/vis/ và sau đó trang này sẽ chuyển hướng bạn đến một trang trên https://competitions.codalab.org nơi bạn có thể tải xuống phiên bản 2019 của tập dữ liệu. Bạn sẽ cần tạo một tài khoản trên codalab để tải xuống dữ liệu. Lưu ý rằng tại thời điểm viết bài này, bạn sẽ cần bỏ qua cảnh báo "Kết nối không an toàn" khi truy cập codalab.
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis/full (cấu hình mặc định)
Mô tả cấu hình : Phiên bản có độ phân giải đầy đủ của tập dữ liệu, bao gồm tất cả các khung, kể cả những khung không có nhãn.
Kích thước tập dữ liệu :
33.31 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Cấu trúc tính năng :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
metadata | Tính năngDict | |||
siêu dữ liệu/chiều cao | tenxơ | int32 | ||
siêu dữ liệu/num_frames | tenxơ | int32 | ||
siêu dữ liệu/video_name | tenxơ | sợi dây | ||
siêu dữ liệu/chiều rộng | tenxơ | int32 | ||
bài hát | Sự phối hợp | |||
đường đi/khu vực | Trình tự (Tensor) | (Không có,) | phao32 | |
bài hát/bbox | Trình tự (Tính năng BBox) | (Không, 4) | phao32 | |
bài hát/danh mục | LớpNhãn | int64 | ||
bài hát/khung | Trình tự (Tensor) | (Không có,) | int32 | |
bài hát/is_crowd | tenxơ | bool | ||
bài hát/phân khúc | Video(Hình ảnh) | (Không, Không, Không, 1) | uint8 | |
video | Video(Hình ảnh) | (Không, Không, Không, 3) | uint8 |
- Ví dụ ( tfds.as_dataframe ):
youtube_vis/480_640_full
Mô tả cấu hình : Tất cả hình ảnh được thay đổi kích thước song tuyến tính thành 480 X 640 bao gồm tất cả các khung hình.
Kích thước tập dữ liệu :
130.02 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Cấu trúc tính năng :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
metadata | Tính năngDict | |||
siêu dữ liệu/chiều cao | tenxơ | int32 | ||
siêu dữ liệu/num_frames | tenxơ | int32 | ||
siêu dữ liệu/video_name | tenxơ | sợi dây | ||
siêu dữ liệu/chiều rộng | tenxơ | int32 | ||
bài hát | Sự phối hợp | |||
đường đi/khu vực | Trình tự (Tensor) | (Không có,) | phao32 | |
bài hát/bbox | Trình tự (Tính năng BBox) | (Không, 4) | phao32 | |
bài hát/danh mục | LớpNhãn | int64 | ||
bài hát/khung | Trình tự (Tensor) | (Không có,) | int32 | |
bài hát/is_crowd | tenxơ | bool | ||
bài hát/phân đoạn | Video(Hình ảnh) | (Không, 480, 640, 1) | uint8 | |
video | Video(Hình ảnh) | (Không, 480, 640, 3) | uint8 |
- Ví dụ ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels
Mô tả cấu hình : Tất cả hình ảnh được thay đổi kích thước song tuyến tính thành 480 X 640 chỉ bao gồm các khung có nhãn.
Kích thước tập dữ liệu :
26.27 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Cấu trúc tính năng :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
metadata | Tính năngDict | |||
siêu dữ liệu/chiều cao | tenxơ | int32 | ||
siêu dữ liệu/num_frames | tenxơ | int32 | ||
siêu dữ liệu/video_name | tenxơ | sợi dây | ||
siêu dữ liệu/chiều rộng | tenxơ | int32 | ||
bài hát | Sự phối hợp | |||
đường đi/khu vực | Trình tự (Tensor) | (Không có,) | phao32 | |
bài hát/bbox | Trình tự (Tính năng BBox) | (Không, 4) | phao32 | |
bài hát/danh mục | LớpNhãn | int64 | ||
bài hát/khung | Trình tự (Tensor) | (Không có,) | int32 | |
bài hát/is_crowd | tenxơ | bool | ||
bài hát/phân khúc | Video(Hình ảnh) | (Không, 480, 640, 1) | uint8 | |
video | Video(Hình ảnh) | (Không, 480, 640, 3) | uint8 |
- Ví dụ ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels
Mô tả cấu hình : Chỉ những hình ảnh có nhãn được bao gồm ở độ phân giải gốc của chúng.
Kích thước tập dữ liệu :
6.91 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 343 |
'train' | 2.238 |
'validation' | 302 |
- Cấu trúc tính năng :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
metadata | Tính năngDict | |||
siêu dữ liệu/chiều cao | tenxơ | int32 | ||
siêu dữ liệu/num_frames | tenxơ | int32 | ||
siêu dữ liệu/video_name | tenxơ | sợi dây | ||
siêu dữ liệu/chiều rộng | tenxơ | int32 | ||
bài hát | Sự phối hợp | |||
đường đi/khu vực | Trình tự (Tensor) | (Không có,) | phao32 | |
bài hát/bbox | Trình tự (Tính năng BBox) | (Không, 4) | phao32 | |
bài hát/danh mục | LớpNhãn | int64 | ||
bài hát/khung | Trình tự (Tensor) | (Không có,) | int32 | |
bài hát/is_crowd | tenxơ | bool | ||
bài hát/phân khúc | Video(Hình ảnh) | (Không, Không, Không, 1) | uint8 | |
video | Video(Hình ảnh) | (Không, Không, Không, 3) | uint8 |
- Ví dụ ( tfds.as_dataframe ):
youtube_vis/full_train_split
Mô tả cấu hình : Phiên bản có độ phân giải đầy đủ của tập dữ liệu, bao gồm tất cả các khung, kể cả những khung không có nhãn. Các phần tách val và test được tạo từ dữ liệu huấn luyện.
Kích thước tập dữ liệu :
26.09 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Cấu trúc tính năng :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
metadata | Tính năngDict | |||
siêu dữ liệu/chiều cao | tenxơ | int32 | ||
siêu dữ liệu/num_frames | tenxơ | int32 | ||
siêu dữ liệu/video_name | tenxơ | sợi dây | ||
siêu dữ liệu/chiều rộng | tenxơ | int32 | ||
bài hát | Sự phối hợp | |||
đường đi/khu vực | Trình tự (Tensor) | (Không có,) | phao32 | |
bài hát/bbox | Trình tự (Tính năng BBox) | (Không, 4) | phao32 | |
bài hát/danh mục | LớpNhãn | int64 | ||
bài hát/khung | Trình tự (Tensor) | (Không có,) | int32 | |
bài hát/is_crowd | tenxơ | bool | ||
bài hát/phân đoạn | Video(Hình ảnh) | (Không, Không, Không, 1) | uint8 | |
video | Video(Hình ảnh) | (Không, Không, Không, 3) | uint8 |
- Ví dụ ( tfds.as_dataframe ):
youtube_vis/480_640_full_train_split
Mô tả cấu hình : Tất cả hình ảnh được thay đổi kích thước song tuyến tính thành 480 X 640 bao gồm tất cả các khung hình. Các phần tách val và test được tạo từ dữ liệu huấn luyện.
Kích thước tập dữ liệu :
101.57 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Cấu trúc tính năng :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
metadata | Tính năngDict | |||
siêu dữ liệu/chiều cao | tenxơ | int32 | ||
siêu dữ liệu/num_frames | tenxơ | int32 | ||
siêu dữ liệu/video_name | tenxơ | sợi dây | ||
siêu dữ liệu/chiều rộng | tenxơ | int32 | ||
bài hát | Sự phối hợp | |||
đường đi/khu vực | Trình tự (Tensor) | (Không có,) | phao32 | |
bài hát/bbox | Trình tự (Tính năng BBox) | (Không, 4) | phao32 | |
bài hát/danh mục | LớpNhãn | int64 | ||
bài hát/khung | Trình tự (Tensor) | (Không có,) | int32 | |
bài hát/is_crowd | tenxơ | bool | ||
bài hát/phân khúc | Video(Hình ảnh) | (Không, 480, 640, 1) | uint8 | |
video | Video(Hình ảnh) | (Không, 480, 640, 3) | uint8 |
- Ví dụ ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels_train_split
Mô tả cấu hình : Tất cả hình ảnh được thay đổi kích thước song tuyến tính thành 480 X 640 chỉ bao gồm các khung có nhãn. Các phần tách val và test được tạo từ dữ liệu huấn luyện.
Kích thước tập dữ liệu :
20.55 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Cấu trúc tính năng :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
metadata | Tính năngDict | |||
siêu dữ liệu/chiều cao | tenxơ | int32 | ||
siêu dữ liệu/num_frames | tenxơ | int32 | ||
siêu dữ liệu/video_name | tenxơ | sợi dây | ||
siêu dữ liệu/chiều rộng | tenxơ | int32 | ||
bài hát | Sự phối hợp | |||
đường đi/khu vực | Trình tự (Tensor) | (Không có,) | phao32 | |
bài hát/bbox | Trình tự (Tính năng BBox) | (Không, 4) | phao32 | |
bài hát/danh mục | LớpNhãn | int64 | ||
bài hát/khung | Trình tự (Tensor) | (Không có,) | int32 | |
bài hát/is_crowd | tenxơ | bool | ||
bài hát/phân khúc | Video(Hình ảnh) | (Không, 480, 640, 1) | uint8 | |
video | Video(Hình ảnh) | (Không, 480, 640, 3) | uint8 |
- Ví dụ ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels_train_split
Mô tả cấu hình : Chỉ những hình ảnh có nhãn được bao gồm ở độ phân giải gốc của chúng. Các phần tách val và test được tạo từ dữ liệu huấn luyện.
Kích thước tập dữ liệu :
5.46 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 200 |
'train' | 1.838 |
'validation' | 200 |
- Cấu trúc tính năng :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
metadata | Tính năngDict | |||
siêu dữ liệu/chiều cao | tenxơ | int32 | ||
siêu dữ liệu/num_frames | tenxơ | int32 | ||
siêu dữ liệu/video_name | tenxơ | sợi dây | ||
siêu dữ liệu/chiều rộng | tenxơ | int32 | ||
bài hát | Sự phối hợp | |||
đường đi/khu vực | Trình tự (Tensor) | (Không có,) | phao32 | |
bài hát/bbox | Trình tự (Tính năng BBox) | (Không, 4) | phao32 | |
bài hát/danh mục | LớpNhãn | int64 | ||
bài hát/khung | Trình tự (Tensor) | (Không có,) | int32 | |
bài hát/is_crowd | tenxơ | bool | ||
bài hát/phân đoạn | Video(Hình ảnh) | (Không, Không, Không, 1) | uint8 | |
video | Video(Hình ảnh) | (Không, Không, Không, 3) | uint8 |
- Ví dụ ( tfds.as_dataframe ):