- Descripción :
LibriTTS es un corpus en inglés de varios hablantes de aproximadamente 585 horas de lectura de habla en inglés a una frecuencia de muestreo de 24 kHz, preparado por Heiga Zen con la ayuda de los miembros del equipo de Google Speech y Google Brain. El corpus LibriTTS está diseñado para la investigación TTS. Se deriva de los materiales originales (archivos de audio mp3 de LibriVox y archivos de texto del Proyecto Gutenberg) del corpus LibriSpeech. Las principales diferencias con el corpus LibriSpeech se enumeran a continuación:
- Los archivos de audio tienen una frecuencia de muestreo de 24 kHz.
- El discurso se divide en los saltos de oración.
- Se incluyen tanto los textos originales como los normalizados.
- Se puede extraer información contextual (p. ej., oraciones vecinas).
- Se excluyen las expresiones con un ruido de fondo significativo.
Documentación adicional : Explore en Papers With Code
Página de inicio : http://www.openslr.org/60
Código fuente :
tfds.datasets.libritts.Builder
Versiones :
-
1.0.1
(predeterminado): Sin notas de la versión.
-
Tamaño de descarga :
78.42 GiB
Tamaño del conjunto de datos :
271.41 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'dev_clean' | 5,736 |
'dev_other' | 4,613 |
'test_clean' | 4,837 |
'test_other' | 5,120 |
'train_clean100' | 33,236 |
'train_clean360' | 116,500 |
'train_other500' | 205,044 |
- Estructura de características :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int64),
'text_normalized': Text(shape=(), dtype=string),
'text_original': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
id_capítulo | Tensor | int64 | ||
identificación | Tensor | cuerda | ||
altavoz_id | Tensor | int64 | ||
discurso | Audio | (Ninguna,) | int64 | |
texto_normalizado | Texto | cuerda | ||
texto_original | Texto | cuerda |
Teclas supervisadas (ver documento
as_supervised
):('text_normalized', 'speech')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@inproceedings{zen2019libritts,
title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
booktitle = {Proc. Interspeech},
month = sep,
year = {2019},
doi = {10.21437/Interspeech.2019-2441},
}