libritt

  • Descrizione :

LibriTTS è un corpus in inglese multi-speaker di circa 585 ore di parlato in inglese letto a una frequenza di campionamento di 24kHz, preparato da Heiga Zen con l'assistenza dei membri del team di Google Speech e Google Brain. Il corpus LibriTTS è progettato per la ricerca TTS. È derivato dai materiali originali (file audio mp3 da LibriVox e file di testo da Project Gutenberg) del corpus LibriSpeech. Le principali differenze rispetto al corpus LibriSpeech sono elencate di seguito:

  1. I file audio hanno una frequenza di campionamento di 24kHz.
  2. Il discorso è diviso in interruzioni di frase.
  3. Sono inclusi sia i testi originali che quelli normalizzati.
  4. Le informazioni contestuali (ad es. frasi vicine) possono essere estratte.
  5. Sono escluse le espressioni con rumore di fondo significativo.
Diviso Esempi
'dev_clean' 5.736
'dev_other' 4.613
'test_clean' 4.837
'test_other' 5.120
'train_clean100' 33.236
'train_clean360' 116.500
'train_other500' 205.044
  • Struttura delle caratteristiche :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
id_capitolo Tensore int64
id Tensore corda
id_altoparlante Tensore int64
discorso Audio (Nessuno,) int64
testo_normalizzato Testo corda
testo_originale Testo corda
  • Citazione :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}