ضجة

الوصف :

مجموعة بيانات فصل الصوت العالمي المجاني (FUSS) هي قاعدة بيانات لمخاليط الصوت التعسفي والمراجع على مستوى المصدر ، لاستخدامها في تجارب فصل الصوت التعسفي.

هذه هي البيانات الرسمية لفصل الصوت لمهمة التحدي DCASE2020 4: الكشف عن حدث الصوت والفصل في البيئات المحلية.

نظرة عامة: يتم الحصول على بيانات FUSS الصوتية من الإصدار المسبق لمجموعة بيانات Freesound المعروفة باسم (FSD50k) ، وهي مجموعة بيانات حدث صوتي مكونة من محتوى Freesound مع تعليقات توضيحية من AudioSet Ontology. باستخدام تسميات FSD50K ، تم فحص ملفات المصدر هذه بحيث تحتوي على الأرجح على نوع واحد فقط من الصوت. لم يتم توفير التسميات لملفات المصدر هذه ، ولا تعتبر جزءًا من التحدي. لغرض تحدي فصل الصوت واكتشاف الأحداث DCASE Task4 ، يجب ألا تستخدم الأنظمة ملصقات FSD50K ، على الرغم من أنها قد تصبح متاحة عند إصدار FSD50K.

لإنشاء مخاليط ، يتم لف مقاطع من المصادر مدتها 10 ثوانٍ باستخدام استجابات نبضات محاكاة للغرفة وإضافتها معًا. يحتوي كل خليط مدته 10 ثوان على ما بين 1 و 4 مصادر. تعتبر ملفات المصدر التي تزيد مدتها عن 10 ثوانٍ مصادر "خلفية". يحتوي كل خليط على مصدر خلفية واحد ، والذي يكون نشطًا طوال المدة. نحن نقدم: وصفة برمجية لإنشاء مجموعة البيانات ، والاستجابات الدافعة للغرفة ، وصوت المصدر الأصلي.

وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
كود المصدر : tfds.audio.Fuss
إصدارات :
- 1.2.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :

انشق، مزق	أمثلة
`'test'`	1،000
`'train'`	20000
`'validation'`	1،000

هيكل الميزة :

FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع
	الميزات
هوية شخصية	موتر		سلسلة
مربيات	موتر		سلسلة
خليط_صوت	صوتي	(160000 ،)	int16
شرائح	تسلسل
شرائح / end_time_seconds	موتر		تعويم 32
شرائح / التسمية	موتر		سلسلة
شرائح / start_time_seconds	موتر		تعويم 32
مصادر	تسلسل
المصادر / الصوت	صوتي	(160000 ،)	int16
المصادر / التسمية	ClassLabel		int64

المفاتيح الخاضعة للإشراف (انظر المستند as_supervised ): ('mixture_audio', 'sources')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

ضجة / صدى (التكوين الافتراضي)

وصف التكوين : صوت صدى افتراضي.
حجم التحميل : 7.35 GiB
حجم مجموعة البيانات : 43.20 GiB
أمثلة ( tfds.as_dataframe ):

ضجة / غير معالج

وصف التكوين : صوت غير معالج بدون صدى إضافي.
حجم التحميل : 8.28 GiB
حجم مجموعة البيانات : 45.58 GiB
أمثلة ( tfds.as_dataframe ):

ضجة تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

ضجة / صدى (التكوين الافتراضي)

ضجة / غير معالج

ضجة