voxceleb

Mô tả :

Một bộ dữ liệu quy mô lớn để nhận dạng người nói. Dữ liệu này được thu thập từ hơn 1.251 người nói, với tổng số hơn 150 nghìn mẫu. Bản phát hành này chứa phần âm thanh của bộ dữ liệu voxceleb1.1.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
Mã nguồn : tfds.audio.Voxceleb
Phiên bản :
- 1.2.1 (mặc định): Thêm trường youtube_id
Kích thước tải xuống : 4.68 MiB
Kích thước tập dữ liệu : 107.98 GiB
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
manual_dir phải chứa tệp vox_dev_wav.zip. Hướng dẫn tải xuống tệp này có trong http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html Tập dữ liệu này yêu cầu đăng ký.
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'test'`	7,972
`'train'`	134.000
`'validation'`	6.670

Cấu trúc tính năng :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
    'youtube_id': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
âm thanh	âm thanh	(Không có,)	int64
nhãn mác	LớpNhãn		int64
youtube_id	Chữ		sợi dây

Các khóa được giám sát (Xem as_supervised doc ): ('audio', 'label')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@InProceedings{Nagrani17,
    author       = "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
    title        = "VoxCeleb: a large-scale speaker identification dataset",
    booktitle    = "INTERSPEECH",
    year         = "2017",
}

voxceleb Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

voxceleb