คำพูด_คำสั่ง

  • คำอธิบาย :

ชุดข้อมูลเสียงของคำพูดที่ออกแบบมาเพื่อช่วยฝึกฝนและประเมินระบบการจำคำหลัก เป้าหมายหลักคือเพื่อให้วิธีการสร้างและทดสอบโมเดลขนาดเล็กที่ตรวจจับเมื่อมีการพูดคำเดียวจากชุดคำเป้าหมาย 10 คำ โดยมีผลบวกลวงให้น้อยที่สุดเท่าที่จะเป็นไปได้จากเสียงรบกวนเบื้องหลังหรือคำพูดที่ไม่เกี่ยวข้อง โปรดทราบว่าในชุดการฝึกและการตรวจสอบความถูกต้อง ป้ายกำกับ "ไม่ทราบ" นั้นแพร่หลายมากกว่าป้ายกำกับของคำเป้าหมายหรือเสียงพื้นหลัง ความแตกต่างอย่างหนึ่งจากรุ่นที่วางจำหน่ายคือการจัดการเซกเมนต์ที่ไม่มีการโต้ตอบ ขณะอยู่ในชุดทดสอบ ส่วนของความเงียบเป็นไฟล์ปกติ 1 วินาที ในการฝึกอบรมจะมีให้เป็นส่วนยาวภายใต้โฟลเดอร์ "background_noise" ที่นี่ เราแบ่งเสียงพื้นหลังเหล่านี้ออกเป็นคลิป 1 วินาที และเก็บไฟล์ใดไฟล์หนึ่งไว้สำหรับชุดตรวจสอบความถูกต้อง

แยก ตัวอย่าง
'test' 4,890
'train' 85,511
'validation' 10,102
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
เสียง เครื่องเสียง (ไม่มี,) int16
ฉลาก ป้ายกำกับคลาส int64
  • การอ้างอิง :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}