- คำอธิบาย :
ชุดข้อมูลเสียงของคำพูดที่ออกแบบมาเพื่อช่วยฝึกฝนและประเมินระบบการจำคำหลัก เป้าหมายหลักคือเพื่อให้วิธีการสร้างและทดสอบโมเดลขนาดเล็กที่ตรวจจับเมื่อมีการพูดคำเดียวจากชุดคำเป้าหมาย 10 คำ โดยมีผลบวกลวงให้น้อยที่สุดเท่าที่จะเป็นไปได้จากเสียงรบกวนเบื้องหลังหรือคำพูดที่ไม่เกี่ยวข้อง โปรดทราบว่าในชุดการฝึกและการตรวจสอบความถูกต้อง ป้ายกำกับ "ไม่ทราบ" นั้นแพร่หลายมากกว่าป้ายกำกับของคำเป้าหมายหรือเสียงพื้นหลัง ความแตกต่างอย่างหนึ่งจากรุ่นที่วางจำหน่ายคือการจัดการเซกเมนต์ที่ไม่มีการโต้ตอบ ขณะอยู่ในชุดทดสอบ ส่วนของความเงียบเป็นไฟล์ปกติ 1 วินาที ในการฝึกอบรมจะมีให้เป็นส่วนยาวภายใต้โฟลเดอร์ "background_noise" ที่นี่ เราแบ่งเสียงพื้นหลังเหล่านี้ออกเป็นคลิป 1 วินาที และเก็บไฟล์ใดไฟล์หนึ่งไว้สำหรับชุดตรวจสอบความถูกต้อง
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
โฮมเพจ : https://arxiv.org/abs/1804.03209
ซอร์สโค้ด :
tfds.datasets.speech_commands.Builder
รุ่น :
-
0.0.3
(ค่าเริ่มต้น): แก้ไขประเภทข้อมูลเสียงด้วย dtype=tf.int16
-
ขนาดการดาวน์โหลด :
2.37 GiB
ขนาดชุดข้อมูล :
8.17 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 4,890 |
'train' | 85,511 |
'validation' | 10,102 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
เสียง | เครื่องเสียง | (ไม่มี,) | int16 | |
ฉลาก | ป้ายกำกับคลาส | int64 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('audio', 'label')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}