- الوصف :
مجموعة بيانات صوتية للكلمات المنطوقة مصممة للمساعدة في تدريب وتقييم أنظمة اكتشاف الكلمات الرئيسية. هدفها الأساسي هو توفير طريقة لبناء واختبار النماذج الصغيرة التي تكتشف متى يتم نطق كلمة واحدة ، من مجموعة من عشر كلمات مستهدفة ، مع أقل عدد ممكن من الإيجابيات الخاطئة من الضوضاء الخلفية أو الكلام غير ذي الصلة. لاحظ أنه في مجموعة التدريب والتحقق من الصحة ، تكون التسمية "غير معروف" أكثر انتشارًا من تسميات الكلمات المستهدفة أو ضوضاء الخلفية. أحد الاختلافات عن نسخة الإصدار هو التعامل مع المقاطع الصامتة. بينما في مجموعة الاختبار ، تكون مقاطع الصمت عبارة عن ملفات عادية مدتها ثانية واحدة ، يتم توفيرها في التدريب كأجزاء طويلة ضمن مجلد "background_noise". هنا نقسم ضوضاء الخلفية هذه إلى مقاطع 1 ثانية ، ونحتفظ أيضًا بأحد الملفات لمجموعة التحقق من الصحة.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية https://arxiv.org/abs/1804.03209
كود المصدر :
tfds.datasets.speech_commands.Builder
إصدارات :
-
0.0.3
(افتراضي): إصلاح نوع بيانات الصوت مع dtype = tf.int16.
-
حجم التحميل :
2.37 GiB
حجم مجموعة البيانات :
8.17 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 4،890 |
'train' | 85511 |
'validation' | 10102 |
- هيكل الميزة :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
صوتي | صوتي | (لا أحد،) | int16 | |
ضع الكلمة المناسبة | ClassLabel | int64 |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('audio', 'label')
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}