- คำอธิบาย :
ชุดข้อมูล Free Universal Sound Separation (FUSS) เป็นฐานข้อมูลของการผสมเสียงตามอำเภอใจและการอ้างอิงระดับแหล่งที่มา สำหรับใช้ในการทดลองเกี่ยวกับการแยกเสียงตามอำเภอใจ
นี่คือข้อมูลการแยกเสียงอย่างเป็นทางการสำหรับ DCASE2020 Challenge Task 4: Sound Event Detection and Separation in Domestic Environments
ภาพรวม: ข้อมูลเสียง FUSS มาจากชุดข้อมูล Freesound รุ่นก่อนเปิดตัวที่รู้จักกันในชื่อ (FSD50k) ซึ่งเป็นชุดข้อมูลเหตุการณ์เสียงที่ประกอบด้วยเนื้อหา Freesound ที่มีป้ายกำกับจาก AudioSet Ontology ด้วยการใช้ป้ายกำกับ FSD50K ไฟล์ต้นฉบับเหล่านี้ได้รับการคัดกรองในลักษณะที่น่าจะประกอบด้วยเสียงประเภทเดียวเท่านั้น ไม่มีป้ายกำกับสำหรับไฟล์ต้นฉบับเหล่านี้ และไม่ถือว่าเป็นส่วนหนึ่งของความท้าทาย สำหรับวัตถุประสงค์ของความท้าทาย DCASE Task4 Sound Separation and Event Detection ระบบไม่ควรใช้ป้ายกำกับ FSD50K แม้ว่าอาจพร้อมใช้งานเมื่อปล่อย FSD50K ก็ตาม
ในการสร้างส่วนผสม คลิปแหล่งที่มาความยาว 10 วินาทีจะถูกรวมเข้ากับการตอบสนองของแรงกระตุ้นในห้องจำลองและนำมารวมกัน แต่ละส่วนผสม 10 วินาทีมีระหว่าง 1 ถึง 4 แหล่ง ไฟล์ต้นฉบับที่ยาวกว่า 10 วินาทีถือเป็นแหล่งที่มา "พื้นหลัง" ทุกส่วนผสมมีแหล่งที่มาพื้นหลังหนึ่งแหล่ง ซึ่งทำงานตลอดระยะเวลาทั้งหมด เรามี: สูตรซอฟต์แวร์สำหรับสร้างชุดข้อมูล การตอบสนองของห้อง และเสียงต้นฉบับ
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
รหัสที่มา :
tfds.audio.Fuss
รุ่น :
-
1.2.0
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,000 |
'train' | 20,000 |
'validation' | 1,000 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
รหัส | เทนเซอร์ | สตริง | ||
แยม | เทนเซอร์ | สตริง | ||
mix_audio | เครื่องเสียง | (160000,) | int16 | |
เซ็กเมนต์ | ลำดับ | |||
เซกเมนต์/end_time_seconds | เทนเซอร์ | ลอย32 | ||
กลุ่ม/ฉลาก | เทนเซอร์ | สตริง | ||
เซ็กเมนต์/start_time_seconds | เทนเซอร์ | ลอย32 | ||
แหล่งที่มา | ลำดับ | |||
แหล่งที่มา/เสียง | เครื่องเสียง | (160000,) | int16 | |
แหล่งที่มา/ป้ายกำกับ | ป้ายกำกับคลาส | int64 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('mixture_audio', 'sources')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
เอะอะ/เสียงก้อง (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า: เสียงก้องเริ่มต้น
ขนาดการดาวน์โหลด :
7.35 GiB
ขนาดชุดข้อมูล :
43.20 GiB
ตัวอย่าง ( tfds.as_dataframe ):
เอะอะ/ยังไม่ได้ดำเนินการ
คำอธิบาย การกำหนดค่า : เสียงที่ไม่ได้ประมวลผลโดยไม่มีเสียงสะท้อนเพิ่มเติม
ขนาดการดาวน์โหลด :
8.28 GiB
ขนาดชุดข้อมูล :
45.58 GiB
ตัวอย่าง ( tfds.as_dataframe ):