- الوصف :
مجموعة بيانات صوتية مجانية من الأرقام المنطوقة. فكر في MNIST للصوت.
مجموعة بيانات صوتية / كلام بسيطة تتكون من تسجيلات للأرقام المنطوقة في ملفات wav بسرعة 8 كيلو هرتز. يتم قطع التسجيلات بحيث يكون لها أدنى حد من الصمت في البدايات والنهايات.
5 مكبرات صوت
2500 تسجيل (50 من كل رقم لكل مكبر صوت)
نطق اللغة الإنجليزية
تمت تسمية الملفات بالتنسيق التالي: {digitLabel} {speakerName} {index} .wav
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية https://github.com/Jakobovski/free-spoken-digit-dataset
كود المصدر :
tfds.datasets.spoken_digit.Builder
إصدارات :
-
1.0.9
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التحميل :
11.42 MiB
حجم مجموعة البيانات :
45.68 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 2500 |
- هيكل الميزة :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'audio/filename': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
صوتي | صوتي | (لا أحد،) | int64 | |
الصوت / اسم الملف | نص | سلسلة | ||
ضع الكلمة المناسبة | ClassLabel | int64 |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('audio', 'label')
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@ONLINE {Free Spoken Digit Dataset,
author = "Zohar Jackson",
title = "Spoken_Digit",
year = "2016",
url = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}