librits

  • Descriptif :

LibriTTS est un corpus anglais multi-locuteurs d'environ 585 heures de discours anglais lu à une fréquence d'échantillonnage de 24 kHz, préparé par Heiga Zen avec l'aide des membres de l'équipe Google Speech et Google Brain. Le corpus LibriTTS est conçu pour la recherche TTS. Il est dérivé des matériaux originaux (fichiers audio mp3 de LibriVox et fichiers texte du projet Gutenberg) du corpus LibriSpeech. Les principales différences avec le corpus LibriSpeech sont listées ci-dessous :

  1. Les fichiers audio sont à un taux d'échantillonnage de 24 kHz.
  2. Le discours est divisé aux pauses de phrase.
  3. Les textes originaux et normalisés sont inclus.
  4. Des informations contextuelles (par exemple, des phrases voisines) peuvent être extraites.
  5. Les énoncés avec un bruit de fond important sont exclus.
Diviser Exemples
'dev_clean' 5 736
'dev_other' 4 613
'test_clean' 4 837
'test_other' 5 120
'train_clean100' 33 236
'train_clean360' 116 500
'train_other500' 205 044
  • Structure des fonctionnalités :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
chapitre_id Tenseur int64
identifiant Tenseur chaîne de caractères
id_haut-parleur Tenseur int64
parole l'audio (Aucun,) int64
text_normalized Texte chaîne de caractères
text_original Texte chaîne de caractères
  • Citation :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}