- 설명 :
SAVEE(Surrey Audio-Visual Expressed Emotion)는 감정 인식 데이터 세트입니다. 4명의 남자 배우들의 7가지 감정, 총 480개의 영국식 영어 발화 녹음으로 구성되어 있습니다. 문장은 표준 TIMIT 말뭉치에서 선택되었으며 각 감정에 대해 발음적으로 균형을 이루었습니다. 이 릴리스에는 원본 시청각 녹음의 오디오 스트림만 포함되어 있습니다.
훈련 세트가 2명의 화자로 구성되고 검증 세트와 테스트 세트가 각각 1명의 화자의 샘플로 구성되도록 데이터가 분할됩니다.
소스 코드 :
tfds.datasets.savee.Builder
버전 :
-
1.0.0
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
Unknown size
데이터 세트 크기 :
259.15 MiB
수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로
download_config.manual_dir
해야 합니다(기본값은~/tensorflow_datasets/downloads/manual/
).
manual_dir에는 AudioData.zip 파일이 포함되어 있어야 합니다. 이 파일은 등록 시 제공된 데이터 세트 폴더의 Data/Zip/AudioData.zip 아래에 있어야 합니다. 데이터 세트를 다운로드할 수 있는 링크를 받으려면 http://personal.ee.surrey.ac.uk/Personal/P.Jackson/SAVEE/Register.html 에서 등록해야 합니다.자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 120 |
'train' | 240 |
'validation' | 120 |
- 기능 구조 :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'label': ClassLabel(shape=(), dtype=int64, num_classes=7),
'speaker_id': string,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
오디오 | 오디오 | (없음,) | int64 | |
상표 | 클래스 레이블 | int64 | ||
speaker_id | 텐서 | 끈 |
감독 키 (
as_supervised
문서 참조):('audio', 'label')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@inproceedings{Vlasenko_combiningframe,
author = {Vlasenko, Bogdan and Schuller, Bjorn and Wendemuth, Andreas and Rigoll, Gerhard},
year = {2007},
month = {01},
pages = {2249-2252},
title = {Combining frame and turn-level information for robust recognition of emotions within speech},
journal = {Proceedings of Interspeech}
}