- Mô tả :
WebVid là tập dữ liệu quy mô lớn gồm các video ngắn có mô tả bằng văn bản lấy từ web. Các video rất đa dạng và phong phú về nội dung.
WebVid-10M chứa:
10,7M cặp phụ đề video. Tổng số giờ xem video là 52K.
Trang chủ : https://m-bain.github.io/webvid-dataset/
Mã nguồn :
tfds.datasets.webvid.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
Unknown size
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Làm theo hướng dẫn tải xuống trong https://m-bain.github.io/webvid-dataset/ để lấy dữ liệu. Đặt các tệp csv và thư mục video trongmanual_dir/webvid
, sao cho các tệp mp4 được đặt trongmanual_dir/webvid/*/*_*/*.mp4
.
Thư mục đầu tiên thường là một thư mục phần tùy ý (để tải xuống từng phần), thư mục thứ hai là thư mục trang (hai số xung quanh dấu gạch dưới), bên trong có một hoặc nhiều tệp mp4.
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không xác định
Chia tách :
Tách ra | ví dụ |
---|
- Cấu trúc tính năng :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
đầu đề | Chữ | sợi dây | ||
nhận dạng | Chữ | sợi dây | ||
url | Chữ | sợi dây | ||
băng hình | Video(Hình ảnh) | (Không, 360, 640, 3) | uint8 |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
trích dẫn :
@misc{bain2021frozen,
title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
year={2021},
eprint={2104.00650},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
, - Mô tả :
WebVid là tập dữ liệu quy mô lớn gồm các video ngắn có mô tả bằng văn bản lấy từ web. Các video rất đa dạng và phong phú về nội dung.
WebVid-10M chứa:
10,7M cặp phụ đề video. Tổng số giờ xem video là 52K.
Trang chủ : https://m-bain.github.io/webvid-dataset/
Mã nguồn :
tfds.datasets.webvid.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
Unknown size
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Làm theo hướng dẫn tải xuống trong https://m-bain.github.io/webvid-dataset/ để lấy dữ liệu. Đặt các tệp csv và thư mục video trongmanual_dir/webvid
, sao cho các tệp mp4 được đặt trongmanual_dir/webvid/*/*_*/*.mp4
.
Thư mục đầu tiên thường là một thư mục phần tùy ý (để tải xuống từng phần), thư mục thứ hai là thư mục trang (hai số xung quanh dấu gạch dưới), bên trong có một hoặc nhiều tệp mp4.
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không xác định
Chia tách :
Tách ra | ví dụ |
---|
- Cấu trúc tính năng :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
đầu đề | Chữ | sợi dây | ||
nhận dạng | Chữ | sợi dây | ||
url | Chữ | sợi dây | ||
băng hình | Video(Hình ảnh) | (Không, 360, 640, 3) | uint8 |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
trích dẫn :
@misc{bain2021frozen,
title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
year={2021},
eprint={2104.00650},
archivePrefix={arXiv},
primaryClass={cs.CV}
}