- Descripción :
Un conjunto de datos de audio de palabras habladas diseñado para ayudar a entrenar y evaluar los sistemas de detección de palabras clave. Su objetivo principal es proporcionar una forma de construir y probar pequeños modelos que detecten cuando se pronuncia una sola palabra, a partir de un conjunto de diez palabras objetivo, con la menor cantidad posible de falsos positivos del ruido de fondo o del habla no relacionada. Tenga en cuenta que en el conjunto de entrenamiento y validación, la etiqueta "desconocido" prevalece mucho más que las etiquetas de las palabras objetivo o el ruido de fondo. Una diferencia con la versión de lanzamiento es el manejo de segmentos silenciosos. Mientras que en el conjunto de prueba los segmentos de silencio son archivos normales de 1 segundo, en el entrenamiento se proporcionan como segmentos largos en la carpeta "background_noise". Aquí dividimos estos ruidos de fondo en clips de 1 segundo y también guardamos uno de los archivos para el conjunto de validación.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://arxiv.org/abs/1804.03209
Código fuente :
tfds.datasets.speech_commands.Builder
Versiones :
-
0.0.3
(predeterminado): Corrige el tipo de datos de audio con dtype=tf.int16.
-
Tamaño de descarga :
2.37 GiB
Tamaño del conjunto de datos :
8.17 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 4,890 |
'train' | 85,511 |
'validation' | 10,102 |
- Estructura de características :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
audio | Audio | (Ninguno,) | int16 | |
etiqueta | Etiqueta de clase | int64 |
Teclas supervisadas (Ver
as_supervised
):('audio', 'label')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}