- Descripción :
SAVEE (Surrey Audio-Visual Expressed Emotion) es un conjunto de datos de reconocimiento de emociones. Consiste en grabaciones de 4 actores masculinos en 7 emociones diferentes, 480 expresiones en inglés británico en total. Las oraciones se eligieron del corpus TIMIT estándar y se balancearon fonéticamente para cada emoción. Esta versión contiene solo la secuencia de audio de la grabación audiovisual original.
Los datos se dividen de modo que el conjunto de entrenamiento consta de 2 hablantes, y tanto el conjunto de validación como el de prueba consisten en muestras de 1 hablante, respectivamente.
Documentación adicional : Explore en Papers With Code
Página de inicio: http://kahlan.eps.surrey.ac.uk/savee/
Código fuente :
tfds.datasets.savee.Builder
Versiones :
-
1.0.0
(predeterminado): Sin notas de la versión.
-
Tamaño de descarga :
Unknown size
Tamaño del conjunto de datos :
259.15 MiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
manual_dir debe contener el archivo AudioData.zip. Este archivo debe estar en Data/Zip/AudioData.zip en la carpeta del conjunto de datos proporcionada al registrarse. Debe registrarse en http://personal.ee.surrey.ac.uk/Personal/P.Jackson/SAVEE/Register.html para obtener el enlace para descargar el conjunto de datos.Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 120 |
'train' | 240 |
'validation' | 120 |
- Estructura de características :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'label': ClassLabel(shape=(), dtype=int64, num_classes=7),
'speaker_id': string,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
audio | Audio | (Ninguno,) | int64 | |
etiqueta | Etiqueta de clase | int64 | ||
altavoz_id | Tensor | cadena |
Teclas supervisadas (Ver
as_supervised
):('audio', 'label')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@inproceedings{Vlasenko_combiningframe,
author = {Vlasenko, Bogdan and Schuller, Bjorn and Wendemuth, Andreas and Rigoll, Gerhard},
year = {2007},
month = {01},
pages = {2249-2252},
title = {Combining frame and turn-level information for robust recognition of emotions within speech},
journal = {Proceedings of Interspeech}
}