ضجة

  • الوصف :

مجموعة بيانات فصل الصوت العالمي المجاني (FUSS) هي قاعدة بيانات لمخاليط الصوت التعسفي والمراجع على مستوى المصدر ، لاستخدامها في تجارب فصل الصوت التعسفي.

هذه هي البيانات الرسمية لفصل الصوت لمهمة التحدي DCASE2020 4: الكشف عن حدث الصوت والفصل في البيئات المحلية.

نظرة عامة: يتم الحصول على بيانات FUSS الصوتية من الإصدار المسبق لمجموعة بيانات Freesound المعروفة باسم (FSD50k) ، وهي مجموعة بيانات حدث صوتي مكونة من محتوى Freesound مع تعليقات توضيحية من AudioSet Ontology. باستخدام تسميات FSD50K ، تم فحص ملفات المصدر هذه بحيث تحتوي على الأرجح على نوع واحد فقط من الصوت. لم يتم توفير التسميات لملفات المصدر هذه ، ولا تعتبر جزءًا من التحدي. لغرض تحدي فصل الصوت واكتشاف الأحداث DCASE Task4 ، يجب ألا تستخدم الأنظمة ملصقات FSD50K ، على الرغم من أنها قد تصبح متاحة عند إصدار FSD50K.

لإنشاء مخاليط ، يتم لف مقاطع من المصادر مدتها 10 ثوانٍ باستخدام استجابات نبضات محاكاة للغرفة وإضافتها معًا. يحتوي كل خليط مدته 10 ثوان على ما بين 1 و 4 مصادر. تعتبر ملفات المصدر التي تزيد مدتها عن 10 ثوانٍ مصادر "خلفية". يحتوي كل خليط على مصدر خلفية واحد ، والذي يكون نشطًا طوال المدة. نحن نقدم: وصفة برمجية لإنشاء مجموعة البيانات ، والاستجابات الدافعة للغرفة ، وصوت المصدر الأصلي.

انشق، مزق أمثلة
'test' 1،000
'train' 20000
'validation' 1،000
  • هيكل الميزة :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
هوية شخصية موتر سلسلة
مربيات موتر سلسلة
خليط_صوت صوتي (160000 ،) int16
شرائح تسلسل
شرائح / end_time_seconds موتر تعويم 32
شرائح / التسمية موتر سلسلة
شرائح / start_time_seconds موتر تعويم 32
مصادر تسلسل
المصادر / الصوت صوتي (160000 ،) int16
المصادر / التسمية ClassLabel int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

ضجة / صدى (التكوين الافتراضي)

  • وصف التكوين : صوت صدى افتراضي.

  • حجم التحميل : 7.35 GiB

  • حجم مجموعة البيانات : 43.20 GiB

  • أمثلة ( tfds.as_dataframe ):

ضجة / غير معالج

  • وصف التكوين : صوت غير معالج بدون صدى إضافي.

  • حجم التحميل : 8.28 GiB

  • حجم مجموعة البيانات : 45.58 GiB

  • أمثلة ( tfds.as_dataframe ):