लिब्रिट्स

  • विवरण :

LibriTTS 24kHz नमूनाकरण दर पर लगभग 585 घंटे पढ़ी जाने वाली अंग्रेजी भाषण का एक बहु-स्पीकर अंग्रेजी कॉर्पस है, जिसे Heiga Zen द्वारा Google भाषण और Google ब्रेन टीम के सदस्यों की सहायता से तैयार किया गया है। LibriTTS कॉर्पस को TTS अनुसंधान के लिए डिज़ाइन किया गया है। यह लिब्रीस्पीच कॉर्पस की मूल सामग्री (लिब्रीवॉक्स से एमपी3 ऑडियो फाइल और प्रोजेक्ट गुटेनबर्ग से टेक्स्ट फाइल) से ली गई है। लिब्रीस्पीच कॉर्पस से मुख्य अंतर नीचे सूचीबद्ध हैं:

  1. ऑडियो फ़ाइलें 24kHz नमूनाकरण दर पर हैं।
  2. भाषण वाक्य विराम पर विभाजित है।
  3. मूल और सामान्यीकृत दोनों ग्रंथ शामिल हैं।
  4. प्रासंगिक जानकारी (जैसे, पड़ोसी वाक्य) निकाली जा सकती है।
  5. महत्वपूर्ण पृष्ठभूमि शोर वाले कथनों को बाहर रखा गया है।
विभाजित करना उदाहरण
'dev_clean' 5,736
'dev_other' 4,613
'test_clean' 4,837
'test_other' 5,120
'train_clean100' 33,236
'train_clean360' 116,500
'train_other500' 205,044
  • फ़ीचर संरचना :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
अध्याय_आईडी टेन्सर int64
पहचान टेन्सर डोरी
स्पीकर_आईडी टेन्सर int64
भाषण ऑडियो (कोई भी नहीं,) int64
text_सामान्यीकृत मूलपाठ डोरी
text_original मूलपाठ डोरी
  • उद्धरण :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}