- الوصف :
هذه مجموعة بيانات خطاب المجال العام تتكون من 13100 مقطع صوتي قصير لمتكلم واحد يقرأ مقاطع من 7 كتب غير خيالية. يتم توفير نسخة لكل مقطع. يختلف طول المقاطع من 1 إلى 10 ثوانٍ ويبلغ إجمالي طولها حوالي 24 ساعة.
نُشرت النصوص بين عامي 1884 و 1964 ، وهي متاحة للعامة. تم تسجيل الصوت في 2016-2017 بواسطة مشروع LibriVox وهو أيضًا في المجال العام.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية https://keithito.com/LJ-Speech-Dataset/
كود المصدر :
tfds.datasets.ljspeech.Builder
إصدارات :
-
1.1.1
(افتراضي): إصلاح نوع بيانات الكلام باستخدام dtype = tf.int16.
-
حجم التحميل :
2.56 GiB
حجم مجموعة البيانات :
10.73 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 13100 |
- هيكل الميزة :
FeaturesDict({
'id': string,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
'text_normalized': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
هوية شخصية | موتر | سلسلة | ||
خطاب | صوتي | (لا أحد،) | int16 | |
نص | نص | سلسلة | ||
text_normalized | نص | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('text_normalized', 'speech')
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@misc{ljspeech17,
author = {Keith Ito},
title = {The LJ Speech Dataset},
howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
year = 2017
}