libridiscurso

Descripción :

LibriSpeech es un corpus de aproximadamente 1000 horas de lectura de habla inglesa con una frecuencia de muestreo de 16 kHz, preparado por Vassil Panayotov con la ayuda de Daniel Povey. Los datos se derivan de audiolibros leídos del proyecto LibriVox y han sido cuidadosamente segmentados y alineados.

Se recomienda utilizar decodificación de audio diferida para una lectura más rápida y un tamaño de conjunto de datos más pequeño: - instale la biblioteca tensorflow_io : pip install tensorflow-io - habilite la decodificación diferida: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Documentación adicional : Explorar en artículos con código
Página de inicio : http://www.openslr.org/12
Código fuente : tfds.datasets.librispeech.Builder
Tamaño de descarga : 57.14 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :

Dividir	Ejemplos
`'dev_clean'`	2,703
`'dev_other'`	2.864
`'test_clean'`	2.620
`'test_other'`	2,939
`'train_clean100'`	28.539
`'train_clean360'`	104.014
`'train_other500'`	148.688

Estructura de características :

FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Documentación de funciones :

Característica	Clase	Forma	tipo D
	FuncionesDict
id_capítulo	Tensor		int64
identificación	Tensor		cadena
id_altavoz	Tensor		int64
discurso	Audio	(Ninguno,)	int16
texto	Texto		cadena

Claves supervisadas (Ver documento as_supervised ): ('speech', 'text')
Figura ( tfds.show_examples ): no compatible.
Cita :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (configuración predeterminada)

Descripción de la configuración : conjunto de datos predeterminado.
Versiones :
- 2.1.1 (predeterminado): corrige el tipo de datos de voz con dtype=tf.int16.
- 2.1.2 : Agregue la configuración 'lazy_decode'.
Tamaño del conjunto de datos : 304.47 GiB
Ejemplos ( tfds.as_dataframe ):

librispeech/lazy_decode

Descripción de la configuración : conjunto de datos de audio sin procesar.
Versiones :
- 2.1.1 : corrige el tipo de datos de voz con dtype=tf.int16.
- 2.1.2 (predeterminado): agregue la configuración 'lazy_decode'.
Tamaño del conjunto de datos : 59.37 GiB
Ejemplos ( tfds.as_dataframe ):

libridiscurso Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

librispeech/default (configuración predeterminada)

librispeech/lazy_decode

libridiscurso