làm phiền

Mô tả :

Bộ dữ liệu Free Universal Sound Separation (FUSS) là cơ sở dữ liệu gồm các hỗn hợp âm thanh tùy ý và tham chiếu cấp nguồn, để sử dụng trong các thử nghiệm về tách âm thanh tùy ý.

Đây là dữ liệu phân tách âm thanh chính thức cho Nhiệm vụ 4 của Thử thách DCASE2020: Phát hiện và phân tách sự kiện âm thanh trong môi trường trong nhà.

Tổng quan: Dữ liệu âm thanh FUSS được lấy từ bộ dữ liệu Freesound tiền phát hành được gọi là (FSD50k), bộ dữ liệu sự kiện âm thanh bao gồm nội dung Freesound được chú thích bằng nhãn từ AudioSet Ontology. Bằng cách sử dụng nhãn FSD50K, các tệp nguồn này đã được sàng lọc sao cho chúng có khả năng chỉ chứa một loại âm thanh duy nhất. Nhãn không được cung cấp cho các tệp nguồn này và không được coi là một phần của thử thách. Vì mục đích của thử thách Phát hiện sự kiện và Phân tách âm thanh Nhiệm vụ DCASE 4, các hệ thống không nên sử dụng nhãn FSD50K, mặc dù chúng có thể khả dụng khi phát hành FSD50K.

Để tạo hỗn hợp, các đoạn nguồn dài 10 giây được kết hợp với các phản ứng xung trong phòng mô phỏng và được cộng lại với nhau. Mỗi hỗn hợp 10 giây chứa từ 1 đến 4 nguồn. Tệp nguồn dài hơn 10 giây được coi là nguồn "nền". Mỗi hỗn hợp chứa một nguồn nền hoạt động trong toàn bộ thời lượng. Chúng tôi cung cấp: công thức phần mềm để tạo tập dữ liệu, phản hồi xung của phòng và âm thanh nguồn gốc.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
Mã nguồn : tfds.audio.Fuss
Phiên bản :
- 1.2.0 (mặc định): Không có ghi chú phát hành.
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'test'`	1.000
`'train'`	20.000
`'validation'`	1.000

Cấu trúc tính năng :

FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
Tôi	tenxơ		sợi dây
ùn tắc	tenxơ		sợi dây
hỗn hợp_âm thanh	âm thanh	(160000,)	int16
phân đoạn	Sự phối hợp
phân đoạn/end_time_seconds	tenxơ		phao32
phân đoạn/nhãn	tenxơ		sợi dây
phân đoạn/start_time_seconds	tenxơ		phao32
nguồn	Sự phối hợp
nguồn/âm thanh	âm thanh	(160000,)	int16
nguồn/nhãn	LớpNhãn		int64

Các phím được giám sát (Xem as_supervised doc ): ('mixture_audio', 'sources')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

ồn ào/âm vang (cấu hình mặc định)

Mô tả cấu hình : Âm thanh dội lại mặc định.
Kích thước tải xuống : 7.35 GiB
Kích thước tập dữ liệu : 43.20 GiB
Ví dụ ( tfds.as_dataframe ):

ồn ào / chưa qua xử lý

Mô tả cấu hình : Âm thanh chưa qua xử lý không có âm vang bổ sung.
Kích thước tải xuống : 8.28 GiB
Kích thước tập dữ liệu : 45.58 GiB
Ví dụ ( tfds.as_dataframe ):

làm phiền Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

ồn ào/âm vang (cấu hình mặc định)

ồn ào / chưa qua xử lý

làm phiền