أوامر الكلام

  • الوصف :

مجموعة بيانات صوتية للكلمات المنطوقة مصممة للمساعدة في تدريب وتقييم أنظمة اكتشاف الكلمات الرئيسية. هدفها الأساسي هو توفير طريقة لبناء واختبار النماذج الصغيرة التي تكتشف متى يتم نطق كلمة واحدة ، من مجموعة من عشر كلمات مستهدفة ، مع أقل عدد ممكن من الإيجابيات الخاطئة من الضوضاء الخلفية أو الكلام غير ذي الصلة. لاحظ أنه في مجموعة التدريب والتحقق من الصحة ، تكون التسمية "غير معروف" أكثر انتشارًا من تسميات الكلمات المستهدفة أو ضوضاء الخلفية. أحد الاختلافات عن نسخة الإصدار هو التعامل مع المقاطع الصامتة. بينما في مجموعة الاختبار ، تكون مقاطع الصمت عبارة عن ملفات عادية مدتها ثانية واحدة ، يتم توفيرها في التدريب كأجزاء طويلة ضمن مجلد "background_noise". هنا نقسم ضوضاء الخلفية هذه إلى مقاطع 1 ثانية ، ونحتفظ أيضًا بأحد الملفات لمجموعة التحقق من الصحة.

انشق، مزق أمثلة
'test' 4،890
'train' 85511
'validation' 10102
  • هيكل الميزة :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
صوتي صوتي (لا أحد،) int16
ضع الكلمة المناسبة ClassLabel int64
  • الاقتباس :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}