yaygara

  • Açıklama :

Ücretsiz Evrensel Ses Ayırma (FUSS) Veri Kümesi, keyfi ses ayırma deneylerinde kullanılmak üzere, keyfi ses karışımları ve kaynak düzeyinde referanslardan oluşan bir veritabanıdır.

Bu, DCASE2020 Challenge Task 4: Ev Ortamlarında Ses Olayı Tespiti ve Ayırma için resmi ses ayrımı verileridir.

Genel Bakış: FUSS ses verileri, AudioSet Ontology'den etiketlerle açıklama eklenmiş Freesound içeriğinden oluşan bir ses olayı veri kümesi olan (FSD50k) olarak bilinen Freesound veri kümesinin ön sürümünden elde edilir. FSD50K etiketleri kullanılarak, bu kaynak dosyalar, muhtemelen yalnızca tek bir ses türü içerecek şekilde taranmıştır. Bu kaynak dosyalar için etiketler sağlanmaz ve zorluğun bir parçası olarak kabul edilmez. DCASE Task4 Ses Ayırma ve Olay Tespiti yarışmasının amacı doğrultusunda, FSD50K piyasaya sürüldüğünde kullanılabilir hale gelseler bile sistemler FSD50K etiketlerini kullanmamalıdır.

Karışımlar oluşturmak için, 10 saniyelik kaynak klipleri, simüle edilmiş oda dürtü tepkileriyle birleştirilir ve birbirine eklenir. Her 10 saniyelik karışım 1 ile 4 arasında kaynak içerir. 10 saniyeden uzun kaynak dosyaları "arka plan" kaynakları olarak kabul edilir. Her karışım, tüm süre boyunca aktif olan bir arka plan kaynağı içerir. Veri kümesini, oda dürtü yanıtlarını ve orijinal kaynak sesi oluşturmak için bir yazılım tarifi sağlıyoruz.

Bölmek örnekler
'test' 1.000
'train' 20.000
'validation' 1.000
  • Özellik yapısı :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
İD tensör sicim
Reçeller tensör sicim
mix_audio Ses (160000,) int16
segmentler Sekans
segmentler/end_time_seconds tensör şamandıra32
segmentler/etiket tensör sicim
segmentler/start_time_seconds tensör şamandıra32
kaynaklar Sekans
kaynaklar/ses Ses (160000,) int16
kaynaklar/etiket SınıfEtiketi int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

yaygara/yankı (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Varsayılan yankılanan ses.

  • İndirme boyutu : 7.35 GiB

  • Veri kümesi boyutu : 43.20 GiB

  • Örnekler ( tfds.as_dataframe ):

yaygara/işlenmemiş

  • Yapılandırma açıklaması : Ek yankılanma olmadan işlenmemiş ses.

  • İndirme boyutu : 8.28 GiB

  • Veri kümesi boyutu : 45.58 GiB

  • Örnekler ( tfds.as_dataframe ):