ليبرات

الوصف :

LibriTTS عبارة عن مجموعة نصية باللغة الإنجليزية متعددة المتحدثين بها ما يقرب من 585 ساعة من قراءة الكلام باللغة الإنجليزية بمعدل أخذ عينات يبلغ 24 كيلو هرتز ، تم إعداده بواسطة Heiga Zen بمساعدة Google Speech وأعضاء فريق Google Brain. تم تصميم مجموعة LibriTTS لأبحاث تحويل النص إلى كلام. وهو مشتق من المواد الأصلية (ملفات صوت mp3 من LibriVox وملفات نصية من مشروع جوتنبرج) لمجموعة LibriSpeech. الاختلافات الرئيسية عن مجموعة LibriSpeech مذكورة أدناه:

ملفات الصوت بمعدل عينات 24 كيلو هرتز.
ينقسم الخطاب عند فواصل الجمل.
يتم تضمين كل من النصوص الأصلية والمطابقة.
يمكن استخراج المعلومات السياقية (على سبيل المثال ، الجمل المجاورة).
يتم استبعاد الأقوال التي تحتوي على ضوضاء كبيرة في الخلفية.

وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : http://www.openslr.org/60
كود المصدر : tfds.datasets.libritts.Builder
إصدارات :
- 1.0.1 (افتراضي): لا توجد ملاحظات حول الإصدار.
حجم التحميل : 78.42 GiB
حجم مجموعة البيانات : 271.41 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :

انشق، مزق	أمثلة
`'dev_clean'`	5736
`'dev_other'`	4613
`'test_clean'`	4837
`'test_other'`	5120
`'train_clean100'`	33236
`'train_clean360'`	116500
`'train_other500'`	205،044

هيكل الميزة :

FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع
	الميزات
Chapter_id	موتر		int64
هوية شخصية	موتر		سلسلة
Speaker_id	موتر		int64
خطاب	صوتي	(لا أحد،)	int64
text_normalized	نص		سلسلة
النص_الأصلي	نص		سلسلة

المفاتيح الخاضعة للإشراف (راجع المستند as_supervised ): ('text_normalized', 'speech')
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):

الاقتباس :

@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}