Speech_commands

  • 설명 :

키워드 발견 시스템을 교육하고 평가하는 데 도움이 되도록 설계된 음성 단어의 오디오 데이터 세트입니다. 기본 목표는 10개의 대상 단어 세트에서 단일 단어가 말해질 때를 감지하는 작은 모델을 구축하고 테스트하는 방법을 제공하는 것입니다. 이때 배경 소음이나 관련 없는 음성으로 인한 오탐이 최소화됩니다. 학습 및 유효성 검사 세트에서 "알 수 없음"이라는 레이블이 대상 단어 또는 배경 노이즈의 레이블보다 훨씬 더 널리 퍼져 있습니다. 릴리스 버전과의 한 가지 차이점은 자동 세그먼트 처리입니다. 테스트 세트에서 무음 세그먼트는 일반 1초 파일이지만 훈련에서는 "background_noise" 폴더 아래에 긴 세그먼트로 제공됩니다. 여기서는 이러한 배경 노이즈를 1초 클립으로 분할하고 유효성 검사 세트에 대한 파일 중 하나도 유지합니다.

나뉘다
'test' 4,890
'train' 85,511
'validation' 10,102
  • 기능 구조 :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
오디오 오디오 (없음,) 정수16
상표 클래스 레이블 int64
  • 인용 :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}