- 説明:
Free Universal Sound Separation (FUSS) Dataset は、任意の音の分離に関する実験で使用するための、任意の音の混合と音源レベルの参照のデータベースです。
これは、DCASE2020 チャレンジ タスク 4: 家庭環境におけるサウンド イベントの検出と分離の公式のサウンド分離データです。
概要: FUSS オーディオ データは、(FSD50k) として知られる Freesound データセットのプレリリースから供給されます。これは、AudioSet オントロジーのラベルで注釈が付けられた Freesound コンテンツで構成されるサウンド イベント データセットです。 FSD50K ラベルを使用して、これらのソース ファイルは、1 種類のサウンドのみが含まれている可能性が高いように選別されています。これらのソース ファイルにはラベルが提供されず、チャレンジの一部とは見なされません。 DCASE Task4 Sound Separation and Event Detection チャレンジの目的のために、システムは FSD50K ラベルを使用すべきではありませんが、FSD50K リリースで使用可能になる可能性があります。
混合物を作成するために、ソースの 10 秒のクリップがシミュレートされた部屋のインパルス応答で畳み込まれ、一緒に追加されます。各 10 秒の混合には、1 ~ 4 つのソースが含まれます。 10 秒を超えるソース ファイルは、「バックグラウンド」ソースと見なされます。すべての混合物には 1 つのバックグラウンド ソースが含まれており、これは全期間にわたってアクティブです。データセット、部屋のインパルス応答、元のソース オーディオを作成するためのソフトウェア レシピを提供します。
追加のドキュメント:コード を使用したペーパーの探索
ソースコード:
tfds.audio.Fuss
バージョン:
-
1.2.0
(デフォルト): リリース ノートはありません。
-
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
'train' | 20,000 |
'validation' | 1,000 |
- 機能構造:
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ID | テンソル | ストリング | ||
ジャム | テンソル | ストリング | ||
mix_audio | オーディオ | (160000,) | int16 | |
セグメント | 順序 | |||
セグメント/end_time_seconds | テンソル | float32 | ||
セグメント/ラベル | テンソル | ストリング | ||
セグメント/start_time_seconds | テンソル | float32 | ||
ソース | 順序 | |||
ソース/オーディオ | オーディオ | (160000,) | int16 | |
ソース/レーベル | クラスラベル | int64 |
監視キー(
as_supervised
docを参照):('mixture_audio', 'sources')
図( tfds.show_examples ): サポートされていません。
引用:
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
大騒ぎ/残響 (デフォルト設定)
構成の説明: デフォルトの残響オーディオ。
ダウンロードサイズ:
7.35 GiB
データセットサイズ:
43.20 GiB
例( tfds.as_dataframe ):
大騒ぎ/未処理
構成の説明: 追加の残響のない未処理のオーディオ。
ダウンロードサイズ:
8.28 GiB
データセットサイズ:
45.58 GiB
例( tfds.as_dataframe ):