- الوصف :
مجموعة بيانات فصل الصوت العالمي المجاني (FUSS) هي قاعدة بيانات لمخاليط الصوت التعسفي والمراجع على مستوى المصدر ، لاستخدامها في تجارب فصل الصوت التعسفي.
هذه هي البيانات الرسمية لفصل الصوت لمهمة التحدي DCASE2020 4: الكشف عن حدث الصوت والفصل في البيئات المحلية.
نظرة عامة: يتم الحصول على بيانات FUSS الصوتية من الإصدار المسبق لمجموعة بيانات Freesound المعروفة باسم (FSD50k) ، وهي مجموعة بيانات حدث صوتي مكونة من محتوى Freesound مع تعليقات توضيحية من AudioSet Ontology. باستخدام تسميات FSD50K ، تم فحص ملفات المصدر هذه بحيث تحتوي على الأرجح على نوع واحد فقط من الصوت. لم يتم توفير التسميات لملفات المصدر هذه ، ولا تعتبر جزءًا من التحدي. لغرض تحدي فصل الصوت واكتشاف الأحداث DCASE Task4 ، يجب ألا تستخدم الأنظمة ملصقات FSD50K ، على الرغم من أنها قد تصبح متاحة عند إصدار FSD50K.
لإنشاء مخاليط ، يتم لف مقاطع من المصادر مدتها 10 ثوانٍ باستخدام استجابات نبضات محاكاة للغرفة وإضافتها معًا. يحتوي كل خليط مدته 10 ثوان على ما بين 1 و 4 مصادر. تعتبر ملفات المصدر التي تزيد مدتها عن 10 ثوانٍ مصادر "خلفية". يحتوي كل خليط على مصدر خلفية واحد ، والذي يكون نشطًا طوال المدة. نحن نقدم: وصفة برمجية لإنشاء مجموعة البيانات ، والاستجابات الدافعة للغرفة ، وصوت المصدر الأصلي.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
كود المصدر :
tfds.audio.Fuss
إصدارات :
-
1.2.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،000 |
'train' | 20000 |
'validation' | 1،000 |
- هيكل الميزة :
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
هوية شخصية | موتر | سلسلة | ||
مربيات | موتر | سلسلة | ||
خليط_صوت | صوتي | (160000 ،) | int16 | |
شرائح | تسلسل | |||
شرائح / end_time_seconds | موتر | تعويم 32 | ||
شرائح / التسمية | موتر | سلسلة | ||
شرائح / start_time_seconds | موتر | تعويم 32 | ||
مصادر | تسلسل | |||
المصادر / الصوت | صوتي | (160000 ،) | int16 | |
المصادر / التسمية | ClassLabel | int64 |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):('mixture_audio', 'sources')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
ضجة / صدى (التكوين الافتراضي)
وصف التكوين : صوت صدى افتراضي.
حجم التحميل :
7.35 GiB
حجم مجموعة البيانات :
43.20 GiB
أمثلة ( tfds.as_dataframe ):
ضجة / غير معالج
وصف التكوين : صوت غير معالج بدون صدى إضافي.
حجم التحميل :
8.28 GiB
حجم مجموعة البيانات :
45.58 GiB
أمثلة ( tfds.as_dataframe ):