गड़बड़

  • विवरण :

फ्री यूनिवर्सल साउंड सेपरेशन (एफयूएसएस) डेटासेट मनमाना ध्वनि मिश्रण और स्रोत-स्तर के संदर्भों का एक डेटाबेस है, जो मनमाने ध्वनि पृथक्करण पर प्रयोगों में उपयोग के लिए है।

यह DCASE2020 चैलेंज टास्क 4 के लिए आधिकारिक साउंड सेपरेशन डेटा है: घरेलू वातावरण में साउंड इवेंट डिटेक्शन एंड सेपरेशन।

अवलोकन: FUSS ऑडियो डेटा को फ़्रीसाउंड डेटासेट (FSD50k) के पूर्व-रिलीज़ से प्राप्त किया जाता है, ऑडियोसेट ओन्टोलॉजी से लेबल के साथ एनोटेट की गई फ़्रीसाउंड सामग्री से बना एक ध्वनि ईवेंट डेटासेट। FSD50K लेबल का उपयोग करते हुए, इन स्रोत फ़ाइलों की जांच इस प्रकार की गई है कि उनमें केवल एक ही प्रकार की ध्वनि होने की संभावना है। इन स्रोत फ़ाइलों के लिए लेबल प्रदान नहीं किए जाते हैं, और इन्हें चुनौती का हिस्सा नहीं माना जाता है। DCASE टास्क 4 साउंड सेपरेशन और इवेंट डिटेक्शन चैलेंज के उद्देश्य से, सिस्टम को FSD50K लेबल का उपयोग नहीं करना चाहिए, भले ही वे FSD50K रिलीज पर उपलब्ध हो सकते हैं।

मिश्रण बनाने के लिए, 10 सेकंड के स्रोतों की क्लिप को सिम्युलेटेड रूम इम्पल्स प्रतिक्रियाओं के साथ जोड़ा जाता है और एक साथ जोड़ा जाता है। प्रत्येक 10 सेकंड के मिश्रण में 1 से 4 स्रोत होते हैं। 10 सेकंड से अधिक लंबी स्रोत फ़ाइलें "पृष्ठभूमि" स्रोत मानी जाती हैं। प्रत्येक मिश्रण में एक पृष्ठभूमि स्रोत होता है, जो पूरी अवधि के लिए सक्रिय रहता है। हम प्रदान करते हैं: डेटासेट बनाने के लिए एक सॉफ़्टवेयर रेसिपी, रूम इंपल्स प्रतिक्रियाएं और मूल स्रोत ऑडियो।

विभाजित करना उदाहरण
'test' 1,000
'train' 20,000
'validation' 1,000
  • फ़ीचर संरचना :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
पहचान टेन्सर डोरी
जाम टेन्सर डोरी
mix_audio ऑडियो (160000,) int16
खंडों क्रम
खंड/end_time_seconds टेन्सर फ्लोट32
खंड / लेबल टेन्सर डोरी
खंड / start_time_seconds टेन्सर फ्लोट32
सूत्रों का कहना है क्रम
स्रोत/ऑडियो ऑडियो (160000,) int16
स्रोत / लेबल क्लासलेबल int64
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): ('mixture_audio', 'sources')

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

उपद्रव/प्रतिध्वनि (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फिग विवरण : डिफॉल्ट रिवर्बेरेटेड ऑडियो।

  • डाउनलोड आकार : 7.35 GiB

  • डेटासेट का आकार : 43.20 GiB

  • उदाहरण ( tfds.as_dataframe ):

उपद्रव/असंसाधित

  • कॉन्फिग विवरण : बिना अतिरिक्त अनुरणन के असंसाधित ऑडियो।

  • डाउनलोड आकार : 8.28 GiB

  • डेटासेट का आकार : 45.58 GiB

  • उदाहरण ( tfds.as_dataframe ):