गड़बड़

विवरण :

फ्री यूनिवर्सल साउंड सेपरेशन (एफयूएसएस) डेटासेट मनमाना ध्वनि मिश्रण और स्रोत-स्तर के संदर्भों का एक डेटाबेस है, जो मनमाने ध्वनि पृथक्करण पर प्रयोगों में उपयोग के लिए है।

यह DCASE2020 चैलेंज टास्क 4 के लिए आधिकारिक साउंड सेपरेशन डेटा है: घरेलू वातावरण में साउंड इवेंट डिटेक्शन एंड सेपरेशन।

अवलोकन: FUSS ऑडियो डेटा को फ़्रीसाउंड डेटासेट (FSD50k) के पूर्व-रिलीज़ से प्राप्त किया जाता है, ऑडियोसेट ओन्टोलॉजी से लेबल के साथ एनोटेट की गई फ़्रीसाउंड सामग्री से बना एक ध्वनि ईवेंट डेटासेट। FSD50K लेबल का उपयोग करते हुए, इन स्रोत फ़ाइलों की जांच इस प्रकार की गई है कि उनमें केवल एक ही प्रकार की ध्वनि होने की संभावना है। इन स्रोत फ़ाइलों के लिए लेबल प्रदान नहीं किए जाते हैं, और इन्हें चुनौती का हिस्सा नहीं माना जाता है। DCASE टास्क 4 साउंड सेपरेशन और इवेंट डिटेक्शन चैलेंज के उद्देश्य से, सिस्टम को FSD50K लेबल का उपयोग नहीं करना चाहिए, भले ही वे FSD50K रिलीज पर उपलब्ध हो सकते हैं।

मिश्रण बनाने के लिए, 10 सेकंड के स्रोतों की क्लिप को सिम्युलेटेड रूम इम्पल्स प्रतिक्रियाओं के साथ जोड़ा जाता है और एक साथ जोड़ा जाता है। प्रत्येक 10 सेकंड के मिश्रण में 1 से 4 स्रोत होते हैं। 10 सेकंड से अधिक लंबी स्रोत फ़ाइलें "पृष्ठभूमि" स्रोत मानी जाती हैं। प्रत्येक मिश्रण में एक पृष्ठभूमि स्रोत होता है, जो पूरी अवधि के लिए सक्रिय रहता है। हम प्रदान करते हैं: डेटासेट बनाने के लिए एक सॉफ़्टवेयर रेसिपी, रूम इंपल्स प्रतिक्रियाएं और मूल स्रोत ऑडियो।

अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
मुखपृष्ठ : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
स्रोत कोड : tfds.audio.Fuss
संस्करण :
- 1.2.0 (डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :

विभाजित करना	उदाहरण
`'test'`	1,000
`'train'`	20,000
`'validation'`	1,000

फ़ीचर संरचना :

FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
पहचान	टेन्सर		डोरी
जाम	टेन्सर		डोरी
mix_audio	ऑडियो	(160000,)	int16
खंडों	क्रम
खंड/end_time_seconds	टेन्सर		फ्लोट32
खंड / लेबल	टेन्सर		डोरी
खंड / start_time_seconds	टेन्सर		फ्लोट32
सूत्रों का कहना है	क्रम
स्रोत/ऑडियो	ऑडियो	(160000,)	int16
स्रोत / लेबल	क्लासलेबल		int64

पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): ('mixture_audio', 'sources')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

उपद्रव/प्रतिध्वनि (डिफ़ॉल्ट कॉन्फ़िगरेशन)

कॉन्फिग विवरण : डिफॉल्ट रिवर्बेरेटेड ऑडियो।
डाउनलोड आकार : 7.35 GiB
डेटासेट का आकार : 43.20 GiB
उदाहरण ( tfds.as_dataframe ):

उपद्रव/असंसाधित

कॉन्फिग विवरण : बिना अतिरिक्त अनुरणन के असंसाधित ऑडियो।
डाउनलोड आकार : 8.28 GiB
डेटासेट का आकार : 45.58 GiB
उदाहरण ( tfds.as_dataframe ):

गड़बड़ संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.

उपद्रव/प्रतिध्वनि (डिफ़ॉल्ट कॉन्फ़िगरेशन)

उपद्रव/असंसाधित

गड़बड़