เอะอะ

คำอธิบาย :

ชุดข้อมูล Free Universal Sound Separation (FUSS) เป็นฐานข้อมูลของการผสมเสียงตามอำเภอใจและการอ้างอิงระดับแหล่งที่มา สำหรับใช้ในการทดลองเกี่ยวกับการแยกเสียงตามอำเภอใจ

นี่คือข้อมูลการแยกเสียงอย่างเป็นทางการสำหรับ DCASE2020 Challenge Task 4: Sound Event Detection and Separation in Domestic Environments

ภาพรวม: ข้อมูลเสียง FUSS มาจากชุดข้อมูล Freesound รุ่นก่อนเปิดตัวที่รู้จักกันในชื่อ (FSD50k) ซึ่งเป็นชุดข้อมูลเหตุการณ์เสียงที่ประกอบด้วยเนื้อหา Freesound ที่มีป้ายกำกับจาก AudioSet Ontology ด้วยการใช้ป้ายกำกับ FSD50K ไฟล์ต้นฉบับเหล่านี้ได้รับการคัดกรองในลักษณะที่น่าจะประกอบด้วยเสียงประเภทเดียวเท่านั้น ไม่มีป้ายกำกับสำหรับไฟล์ต้นฉบับเหล่านี้ และไม่ถือว่าเป็นส่วนหนึ่งของความท้าทาย สำหรับวัตถุประสงค์ของความท้าทาย DCASE Task4 Sound Separation and Event Detection ระบบไม่ควรใช้ป้ายกำกับ FSD50K แม้ว่าอาจพร้อมใช้งานเมื่อปล่อย FSD50K ก็ตาม

ในการสร้างส่วนผสม คลิปแหล่งที่มาความยาว 10 วินาทีจะถูกรวมเข้ากับการตอบสนองของแรงกระตุ้นในห้องจำลองและนำมารวมกัน แต่ละส่วนผสม 10 วินาทีมีระหว่าง 1 ถึง 4 แหล่ง ไฟล์ต้นฉบับที่ยาวกว่า 10 วินาทีถือเป็นแหล่งที่มา "พื้นหลัง" ทุกส่วนผสมมีแหล่งที่มาพื้นหลังหนึ่งแหล่ง ซึ่งทำงานตลอดระยะเวลาทั้งหมด เรามี: สูตรซอฟต์แวร์สำหรับสร้างชุดข้อมูล การตอบสนองของห้อง และเสียงต้นฉบับ

เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
รหัสที่มา : tfds.audio.Fuss
รุ่น :
- 1.2.0 (ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :

แยก	ตัวอย่าง
`'test'`	1,000
`'train'`	20,000
`'validation'`	1,000

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
รหัส	เทนเซอร์		สตริง
แยม	เทนเซอร์		สตริง
mix_audio	เครื่องเสียง	(160000,)	int16
เซ็กเมนต์	ลำดับ
เซกเมนต์/end_time_seconds	เทนเซอร์		ลอย32
กลุ่ม/ฉลาก	เทนเซอร์		สตริง
เซ็กเมนต์/start_time_seconds	เทนเซอร์		ลอย32
แหล่งที่มา	ลำดับ
แหล่งที่มา/เสียง	เครื่องเสียง	(160000,)	int16
แหล่งที่มา/ป้ายกำกับ	ป้ายกำกับคลาส		int64

คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('mixture_audio', 'sources')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

เอะอะ/เสียงก้อง (การกำหนดค่าเริ่มต้น)

คำอธิบาย การกำหนดค่า: เสียงก้องเริ่มต้น
ขนาดการดาวน์โหลด : 7.35 GiB
ขนาดชุดข้อมูล : 43.20 GiB
ตัวอย่าง ( tfds.as_dataframe ):

เอะอะ/ยังไม่ได้ดำเนินการ

คำอธิบาย การกำหนดค่า : เสียงที่ไม่ได้ประมวลผลโดยไม่มีเสียงสะท้อนเพิ่มเติม
ขนาดการดาวน์โหลด : 8.28 GiB
ขนาดชุดข้อมูล : 45.58 GiB
ตัวอย่าง ( tfds.as_dataframe ):

เอะอะ จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

เอะอะ/เสียงก้อง (การกำหนดค่าเริ่มต้น)

เอะอะ/ยังไม่ได้ดำเนินการ

เอะอะ