Conozca lo último en aprendizaje automático, IA generativa y más en el Simposio WiML 2023.

Se usó la API de Cloud Translation para traducir esta página.

guardar

Descripción :

SAVEE (Surrey Audio-Visual Expressed Emotion) es un conjunto de datos de reconocimiento de emociones. Consiste en grabaciones de 4 actores masculinos en 7 emociones diferentes, 480 expresiones en inglés británico en total. Las oraciones se eligieron del corpus TIMIT estándar y se balancearon fonéticamente para cada emoción. Esta versión contiene solo la secuencia de audio de la grabación audiovisual original.

Los datos se dividen de modo que el conjunto de entrenamiento consta de 2 hablantes, y tanto el conjunto de validación como el de prueba consisten en muestras de 1 hablante, respectivamente.

Documentación adicional : Explore en Papers With Code
Página de inicio: http://kahlan.eps.surrey.ac.uk/savee/
Código fuente : tfds.datasets.savee.Builder
Versiones :
- 1.0.0 (predeterminado): Sin notas de la versión.
Tamaño de descarga : Unknown size
Tamaño del conjunto de datos : 259.15 MiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
manual_dir debe contener el archivo AudioData.zip. Este archivo debe estar en Data/Zip/AudioData.zip en la carpeta del conjunto de datos proporcionada al registrarse. Debe registrarse en http://personal.ee.surrey.ac.uk/Personal/P.Jackson/SAVEE/Register.html para obtener el enlace para descargar el conjunto de datos.
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'test'`	120
`'train'`	240
`'validation'`	120

Estructura de características :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=7),
    'speaker_id': string,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
audio	Audio	(Ninguno,)	int64
etiqueta	Etiqueta de clase		int64
altavoz_id	Tensor		cadena

Teclas supervisadas (Ver as_supervised ): ('audio', 'label')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):

Cita :

@inproceedings{Vlasenko_combiningframe,
author = {Vlasenko, Bogdan and Schuller, Bjorn and Wendemuth, Andreas and Rigoll, Gerhard},
year = {2007},
month = {01},
pages = {2249-2252},
title = {Combining frame and turn-level information for robust recognition of emotions within speech},
journal = {Proceedings of Interspeech}
}

guardar Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

guardar