- Açıklama :
Ücretsiz Evrensel Ses Ayırma (FUSS) Veri Kümesi, keyfi ses ayırma deneylerinde kullanılmak üzere, keyfi ses karışımları ve kaynak düzeyinde referanslardan oluşan bir veritabanıdır.
Bu, DCASE2020 Challenge Task 4: Ev Ortamlarında Ses Olayı Tespiti ve Ayırma için resmi ses ayrımı verileridir.
Genel Bakış: FUSS ses verileri, AudioSet Ontology'den etiketlerle açıklama eklenmiş Freesound içeriğinden oluşan bir ses olayı veri kümesi olan (FSD50k) olarak bilinen Freesound veri kümesinin ön sürümünden elde edilir. FSD50K etiketleri kullanılarak, bu kaynak dosyalar, muhtemelen yalnızca tek bir ses türü içerecek şekilde taranmıştır. Bu kaynak dosyalar için etiketler sağlanmaz ve zorluğun bir parçası olarak kabul edilmez. DCASE Task4 Ses Ayırma ve Olay Tespiti yarışmasının amacı doğrultusunda, FSD50K piyasaya sürüldüğünde kullanılabilir hale gelseler bile sistemler FSD50K etiketlerini kullanmamalıdır.
Karışımlar oluşturmak için, 10 saniyelik kaynak klipleri, simüle edilmiş oda dürtü tepkileriyle birleştirilir ve birbirine eklenir. Her 10 saniyelik karışım 1 ile 4 arasında kaynak içerir. 10 saniyeden uzun kaynak dosyaları "arka plan" kaynakları olarak kabul edilir. Her karışım, tüm süre boyunca aktif olan bir arka plan kaynağı içerir. Veri kümesini, oda dürtü yanıtlarını ve orijinal kaynak sesi oluşturmak için bir yazılım tarifi sağlıyoruz.
Ana sayfa : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
Kaynak kodu :
tfds.audio.Fuss
sürümler :
-
1.2.0
(varsayılan): Sürüm notu yok.
-
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 1.000 |
'train' | 20.000 |
'validation' | 1.000 |
- Özellik yapısı :
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
İD | tensör | sicim | ||
Reçeller | tensör | sicim | ||
mix_audio | Ses | (160000,) | int16 | |
segmentler | Sekans | |||
segmentler/end_time_seconds | tensör | şamandıra32 | ||
segmentler/etiket | tensör | sicim | ||
segmentler/start_time_seconds | tensör | şamandıra32 | ||
kaynaklar | Sekans | |||
kaynaklar/ses | Ses | (160000,) | int16 | |
kaynaklar/etiket | SınıfEtiketi | int64 |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):('mixture_audio', 'sources')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
yaygara/yankı (varsayılan yapılandırma)
Yapılandırma açıklaması : Varsayılan yankılanan ses.
İndirme boyutu :
7.35 GiB
Veri kümesi boyutu :
43.20 GiB
Örnekler ( tfds.as_dataframe ):
yaygara/işlenmemiş
Yapılandırma açıklaması : Ek yankılanma olmadan işlenmemiş ses.
İndirme boyutu :
8.28 GiB
Veri kümesi boyutu :
45.58 GiB
Örnekler ( tfds.as_dataframe ):