- 설명 :
키워드 발견 시스템을 교육하고 평가하는 데 도움이 되도록 설계된 음성 단어의 오디오 데이터 세트입니다. 기본 목표는 10개의 대상 단어 세트에서 단일 단어가 말해질 때를 감지하는 작은 모델을 구축하고 테스트하는 방법을 제공하는 것입니다. 이때 배경 소음이나 관련 없는 음성으로 인한 오탐이 최소화됩니다. 학습 및 유효성 검사 세트에서 "알 수 없음"이라는 레이블이 대상 단어 또는 배경 노이즈의 레이블보다 훨씬 더 널리 퍼져 있습니다. 릴리스 버전과의 한 가지 차이점은 자동 세그먼트 처리입니다. 테스트 세트에서 무음 세그먼트는 일반 1초 파일이지만 훈련에서는 "background_noise" 폴더 아래에 긴 세그먼트로 제공됩니다. 여기서는 이러한 배경 노이즈를 1초 클립으로 분할하고 유효성 검사 세트에 대한 파일 중 하나도 유지합니다.
버전 :
-
0.0.3
(기본값): dtype=tf.int16으로 오디오 데이터 유형을 수정합니다.
-
다운로드 크기 :
2.37 GiB
데이터세트 크기 :
8.17 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 4,890 |
'train' | 85,511 |
'validation' | 10,102 |
- 기능 구조 :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
오디오 | 오디오 | (없음,) | 정수16 | |
상표 | 클래스 레이블 | int64 |
감독 키 (
as_supervised
문서 참조):('audio', 'label')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}