- Mô tả :
Bộ dữ liệu Free Universal Sound Separation (FUSS) là cơ sở dữ liệu gồm các hỗn hợp âm thanh tùy ý và tham chiếu cấp nguồn, để sử dụng trong các thử nghiệm về tách âm thanh tùy ý.
Đây là dữ liệu phân tách âm thanh chính thức cho Nhiệm vụ 4 của Thử thách DCASE2020: Phát hiện và phân tách sự kiện âm thanh trong môi trường trong nhà.
Tổng quan: Dữ liệu âm thanh FUSS được lấy từ bộ dữ liệu Freesound tiền phát hành được gọi là (FSD50k), bộ dữ liệu sự kiện âm thanh bao gồm nội dung Freesound được chú thích bằng nhãn từ AudioSet Ontology. Bằng cách sử dụng nhãn FSD50K, các tệp nguồn này đã được sàng lọc sao cho chúng có khả năng chỉ chứa một loại âm thanh duy nhất. Nhãn không được cung cấp cho các tệp nguồn này và không được coi là một phần của thử thách. Vì mục đích của thử thách Phát hiện sự kiện và Phân tách âm thanh Nhiệm vụ DCASE 4, các hệ thống không nên sử dụng nhãn FSD50K, mặc dù chúng có thể khả dụng khi phát hành FSD50K.
Để tạo hỗn hợp, các đoạn nguồn dài 10 giây được kết hợp với các phản ứng xung trong phòng mô phỏng và được cộng lại với nhau. Mỗi hỗn hợp 10 giây chứa từ 1 đến 4 nguồn. Tệp nguồn dài hơn 10 giây được coi là nguồn "nền". Mỗi hỗn hợp chứa một nguồn nền hoạt động trong toàn bộ thời lượng. Chúng tôi cung cấp: công thức phần mềm để tạo tập dữ liệu, phản hồi xung của phòng và âm thanh nguồn gốc.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
Mã nguồn :
tfds.audio.Fuss
Phiên bản :
-
1.2.0
(mặc định): Không có ghi chú phát hành.
-
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
'train' | 20.000 |
'validation' | 1.000 |
- Cấu trúc tính năng :
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
Tôi | tenxơ | sợi dây | ||
ùn tắc | tenxơ | sợi dây | ||
hỗn hợp_âm thanh | âm thanh | (160000,) | int16 | |
phân đoạn | Sự phối hợp | |||
phân đoạn/end_time_seconds | tenxơ | phao32 | ||
phân đoạn/nhãn | tenxơ | sợi dây | ||
phân đoạn/start_time_seconds | tenxơ | phao32 | ||
nguồn | Sự phối hợp | |||
nguồn/âm thanh | âm thanh | (160000,) | int16 | |
nguồn/nhãn | LớpNhãn | int64 |
Các phím được giám sát (Xem
as_supervised
doc ):('mixture_audio', 'sources')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
ồn ào/âm vang (cấu hình mặc định)
Mô tả cấu hình : Âm thanh dội lại mặc định.
Kích thước tải xuống :
7.35 GiB
Kích thước tập dữ liệu :
43.20 GiB
Ví dụ ( tfds.as_dataframe ):
ồn ào / chưa qua xử lý
Mô tả cấu hình : Âm thanh chưa qua xử lý không có âm vang bổ sung.
Kích thước tải xuống :
8.28 GiB
Kích thước tập dữ liệu :
45.58 GiB
Ví dụ ( tfds.as_dataframe ):