librishabla

  • Descripción :

LibriSpeech es un corpus de aproximadamente 1000 horas de habla inglesa leída con una frecuencia de muestreo de 16 kHz, preparado por Vassil Panayotov con la ayuda de Daniel Povey. Los datos se derivan de audiolibros leídos del proyecto LibriVox y se han segmentado y alineado cuidadosamente.

Se recomienda utilizar la decodificación de audio diferida para una lectura más rápida y un tamaño de conjunto de datos más pequeño: - instale la biblioteca tensorflow_io : pip install tensorflow-io - habilite la decodificación diferida: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Separar Ejemplos
'dev_clean' 2,703
'dev_other' 2,864
'test_clean' 2,620
'test_other' 2,939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • Estructura de características :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
id_capítulo Tensor int64
identificación Tensor cadena
altavoz_id Tensor int64
habla Audio (Ninguno,) int16
texto Texto cadena
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/predeterminado (configuración predeterminada)

  • Descripción de la configuración : conjunto de datos predeterminado.

  • Versiones :

    • 2.1.1 (predeterminado): corrige el tipo de datos de voz con dtype=tf.int16.
    • 2.1.2 : Agregar configuración 'lazy_decode'.
  • Tamaño del conjunto de datos : 304.47 GiB

  • Ejemplos ( tfds.as_dataframe ):

librehabla/lazy_decode

  • Descripción de la configuración : conjunto de datos de audio sin procesar.

  • Versiones :

    • 2.1.1 : corrija el tipo de datos de voz con dtype=tf.int16.
    • 2.1.2 (predeterminado): Agregar configuración 'lazy_decode'.
  • Tamaño del conjunto de datos : 59.37 GiB

  • Ejemplos ( tfds.as_dataframe ): Falta.

,

  • Descripción :

LibriSpeech es un corpus de aproximadamente 1000 horas de habla inglesa leída con una frecuencia de muestreo de 16 kHz, preparado por Vassil Panayotov con la ayuda de Daniel Povey. Los datos se derivan de audiolibros leídos del proyecto LibriVox y se han segmentado y alineado cuidadosamente.

Se recomienda utilizar la decodificación de audio diferida para una lectura más rápida y un tamaño de conjunto de datos más pequeño: - instale la biblioteca tensorflow_io : pip install tensorflow-io - habilite la decodificación diferida: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Separar Ejemplos
'dev_clean' 2,703
'dev_other' 2,864
'test_clean' 2,620
'test_other' 2,939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • Estructura de características :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
id_capítulo Tensor int64
identificación Tensor cadena
altavoz_id Tensor int64
habla Audio (Ninguno,) int16
texto Texto cadena
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/predeterminado (configuración predeterminada)

  • Descripción de la configuración : conjunto de datos predeterminado.

  • Versiones :

    • 2.1.1 (predeterminado): corrige el tipo de datos de voz con dtype=tf.int16.
    • 2.1.2 : Agregar configuración 'lazy_decode'.
  • Tamaño del conjunto de datos : 304.47 GiB

  • Ejemplos ( tfds.as_dataframe ):

librehabla/lazy_decode

  • Descripción de la configuración : conjunto de datos de audio sin procesar.

  • Versiones :

    • 2.1.1 : corrija el tipo de datos de voz con dtype=tf.int16.
    • 2.1.2 (predeterminado): Agregar configuración 'lazy_decode'.
  • Tamaño del conjunto de datos : 59.37 GiB

  • Ejemplos ( tfds.as_dataframe ): Falta.