- विवरण :
फ्री यूनिवर्सल साउंड सेपरेशन (एफयूएसएस) डेटासेट मनमाना ध्वनि मिश्रण और स्रोत-स्तर के संदर्भों का एक डेटाबेस है, जो मनमाने ध्वनि पृथक्करण पर प्रयोगों में उपयोग के लिए है।
यह DCASE2020 चैलेंज टास्क 4 के लिए आधिकारिक साउंड सेपरेशन डेटा है: घरेलू वातावरण में साउंड इवेंट डिटेक्शन एंड सेपरेशन।
अवलोकन: FUSS ऑडियो डेटा को फ़्रीसाउंड डेटासेट (FSD50k) के पूर्व-रिलीज़ से प्राप्त किया जाता है, ऑडियोसेट ओन्टोलॉजी से लेबल के साथ एनोटेट की गई फ़्रीसाउंड सामग्री से बना एक ध्वनि ईवेंट डेटासेट। FSD50K लेबल का उपयोग करते हुए, इन स्रोत फ़ाइलों की जांच इस प्रकार की गई है कि उनमें केवल एक ही प्रकार की ध्वनि होने की संभावना है। इन स्रोत फ़ाइलों के लिए लेबल प्रदान नहीं किए जाते हैं, और इन्हें चुनौती का हिस्सा नहीं माना जाता है। DCASE टास्क 4 साउंड सेपरेशन और इवेंट डिटेक्शन चैलेंज के उद्देश्य से, सिस्टम को FSD50K लेबल का उपयोग नहीं करना चाहिए, भले ही वे FSD50K रिलीज पर उपलब्ध हो सकते हैं।
मिश्रण बनाने के लिए, 10 सेकंड के स्रोतों की क्लिप को सिम्युलेटेड रूम इम्पल्स प्रतिक्रियाओं के साथ जोड़ा जाता है और एक साथ जोड़ा जाता है। प्रत्येक 10 सेकंड के मिश्रण में 1 से 4 स्रोत होते हैं। 10 सेकंड से अधिक लंबी स्रोत फ़ाइलें "पृष्ठभूमि" स्रोत मानी जाती हैं। प्रत्येक मिश्रण में एक पृष्ठभूमि स्रोत होता है, जो पूरी अवधि के लिए सक्रिय रहता है। हम प्रदान करते हैं: डेटासेट बनाने के लिए एक सॉफ़्टवेयर रेसिपी, रूम इंपल्स प्रतिक्रियाएं और मूल स्रोत ऑडियो।
स्रोत कोड :
tfds.audio.Fuss
संस्करण :
-
1.2.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,000 |
'train' | 20,000 |
'validation' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
पहचान | टेन्सर | डोरी | ||
जाम | टेन्सर | डोरी | ||
mix_audio | ऑडियो | (160000,) | int16 | |
खंडों | क्रम | |||
खंड/end_time_seconds | टेन्सर | फ्लोट32 | ||
खंड / लेबल | टेन्सर | डोरी | ||
खंड / start_time_seconds | टेन्सर | फ्लोट32 | ||
सूत्रों का कहना है | क्रम | |||
स्रोत/ऑडियो | ऑडियो | (160000,) | int16 | |
स्रोत / लेबल | क्लासलेबल | int64 |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):('mixture_audio', 'sources')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
उपद्रव/प्रतिध्वनि (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फिग विवरण : डिफॉल्ट रिवर्बेरेटेड ऑडियो।
डाउनलोड आकार :
7.35 GiB
डेटासेट का आकार :
43.20 GiB
उदाहरण ( tfds.as_dataframe ):
उपद्रव/असंसाधित
कॉन्फिग विवरण : बिना अतिरिक्त अनुरणन के असंसाधित ऑडियो।
डाउनलोड आकार :
8.28 GiB
डेटासेट का आकार :
45.58 GiB
उदाहरण ( tfds.as_dataframe ):