ljhabla

  • Descripción :

Este es un conjunto de datos de voz de dominio público que consta de 13 100 clips de audio breves de un solo hablante que lee pasajes de 7 libros de no ficción. Se proporciona una transcripción para cada clip. Los clips varían en duración de 1 a 10 segundos y tienen una duración total de aproximadamente 24 horas.

Los textos se publicaron entre 1884 y 1964 y son de dominio público. El audio fue grabado en 2016-17 por el proyecto LibriVox y también es de dominio público.

Separar Ejemplos
'train' 13,100
  • Estructura de características :
FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
identificación Tensor cuerda
discurso Audio (Ninguna,) int16
texto Texto cuerda
texto_normalizado Texto cuerda
  • Cita :
@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}