Conozca lo último en aprendizaje automático, IA generativa y más en el Simposio WiML 2023.

Se usó la API de Cloud Translation para traducir esta página.

ljhabla

Descripción :

Este es un conjunto de datos de voz de dominio público que consta de 13 100 clips de audio breves de un solo hablante que lee pasajes de 7 libros de no ficción. Se proporciona una transcripción para cada clip. Los clips varían en duración de 1 a 10 segundos y tienen una duración total de aproximadamente 24 horas.

Los textos se publicaron entre 1884 y 1964 y son de dominio público. El audio fue grabado en 2016-17 por el proyecto LibriVox y también es de dominio público.

Documentación adicional : Explore en Papers With Code
Página de inicio : https://keithito.com/LJ-Speech-Dataset/
Código fuente : tfds.datasets.ljspeech.Builder
Versiones :
- 1.1.1 (predeterminado): corrige el tipo de datos de voz con dtype=tf.int16.
Tamaño de descarga : 2.56 GiB
Tamaño del conjunto de datos : 10.73 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'train'`	13,100

Estructura de características :

FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
identificación	Tensor		cuerda
discurso	Audio	(Ninguna,)	int16
texto	Texto		cuerda
texto_normalizado	Texto		cuerda

Teclas supervisadas (ver documento as_supervised ): ('text_normalized', 'speech')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):

Cita :

@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}

ljhabla Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

ljhabla