ليبرات

  • الوصف :

LibriTTS عبارة عن مجموعة نصية باللغة الإنجليزية متعددة المتحدثين بها ما يقرب من 585 ساعة من قراءة الكلام باللغة الإنجليزية بمعدل أخذ عينات يبلغ 24 كيلو هرتز ، تم إعداده بواسطة Heiga Zen بمساعدة Google Speech وأعضاء فريق Google Brain. تم تصميم مجموعة LibriTTS لأبحاث تحويل النص إلى كلام. وهو مشتق من المواد الأصلية (ملفات صوت mp3 من LibriVox وملفات نصية من مشروع جوتنبرج) لمجموعة LibriSpeech. الاختلافات الرئيسية عن مجموعة LibriSpeech مذكورة أدناه:

  1. ملفات الصوت بمعدل عينات 24 كيلو هرتز.
  2. ينقسم الخطاب عند فواصل الجمل.
  3. يتم تضمين كل من النصوص الأصلية والمطابقة.
  4. يمكن استخراج المعلومات السياقية (على سبيل المثال ، الجمل المجاورة).
  5. يتم استبعاد الأقوال التي تحتوي على ضوضاء كبيرة في الخلفية.
انشق، مزق أمثلة
'dev_clean' 5736
'dev_other' 4613
'test_clean' 4837
'test_other' 5120
'train_clean100' 33236
'train_clean360' 116500
'train_other500' 205،044
  • هيكل الميزة :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
Chapter_id موتر int64
هوية شخصية موتر سلسلة
Speaker_id موتر int64
خطاب صوتي (لا أحد،) int64
text_normalized نص سلسلة
النص_الأصلي نص سلسلة
  • الاقتباس :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}