libritler

  • Açıklama :

LibriTTS, Google Speech ve Google Brain ekip üyelerinin yardımıyla Heiga Zen tarafından hazırlanan, 24 kHz örnekleme hızında yaklaşık 585 saatlik İngilizce konuşma okumasından oluşan çok konuşmacılı bir İngilizce derlemidir. LibriTTS korpusu, TTS araştırması için tasarlanmıştır. LibriSpeech külliyatının orijinal materyallerinden (LibriVox'tan mp3 ses dosyaları ve Project Gutenberg'den metin dosyaları) türetilmiştir. LibriSpeech külliyatından temel farklar aşağıda listelenmiştir:

  1. Ses dosyaları 24kHz örnekleme hızındadır.
  2. Cümle aralarında konuşma bölünür.
  3. Hem orijinal hem de normalleştirilmiş metinler dahildir.
  4. Bağlamsal bilgiler (örneğin komşu cümleler) çıkarılabilir.
  5. Önemli arka plan gürültüsü olan ifadeler hariç tutulmuştur.
Bölmek örnekler
'dev_clean' 5.736
'dev_other' 4.613
'test_clean' 4.837
'test_other' 5.120
'train_clean100' 33.236
'train_clean360' 116.500
'train_other500' 205.044
  • Özellik yapısı :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
İD tensör sicim
hoparlör_kimliği tensör int64
konuşma Ses (Hiçbiri,) int64
metin_normalleştirilmiş Metin sicim
metin_orijinal Metin sicim
  • Alıntı :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}