야단법석

  • 설명 :

FUSS(Free Universal Sound Separation) 데이터 세트는 임의의 소리 분리 실험에 사용하기 위한 임의의 소리 혼합 및 소스 수준 참조의 데이터베이스입니다.

DCASE2020 Challenge Task 4: 국내 환경에서 소리 이벤트 감지 및 분리에 대한 공식 소리 분리 데이터입니다.

개요: FUSS 오디오 데이터는 AudioSet Ontology의 레이블로 주석이 달린 Freesound 콘텐츠로 구성된 사운드 이벤트 데이터 세트인 (FSD50k)로 알려진 Freesound 데이터 세트의 사전 릴리스에서 제공됩니다. FSD50K 레이블을 사용하여 이러한 소스 파일은 단일 유형의 사운드만 포함할 수 있도록 선별되었습니다. 이러한 소스 파일에는 레이블이 제공되지 않으며 챌린지의 일부로 간주되지 않습니다. DCASE Task4 소리 분리 및 이벤트 감지 챌린지의 목적을 위해 시스템은 FSD50K 릴리스에서 사용할 수 있게 되더라도 FSD50K 레이블을 사용해서는 안 됩니다.

혼합물을 생성하기 위해 소스의 10초 클립이 시뮬레이션된 룸 임펄스 응답과 컨볼루션되고 함께 추가됩니다. 각 10초 혼합물에는 1~4개의 소스가 포함됩니다. 10초보다 긴 소스 파일은 "백그라운드" 소스로 간주됩니다. 모든 혼합물에는 전체 기간 동안 활성화되는 하나의 배경 소스가 포함되어 있습니다. 데이터 세트, 실내 임펄스 응답 및 원본 소스 오디오를 생성하는 소프트웨어 레시피를 제공합니다.

나뉘다
'test' 1,000
'train' 20,000
'validation' 1,000
  • 기능 구조 :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
ID 텐서
텐서
mix_audio 오디오 (160000,) 정수16
세그먼트 순서
세그먼트/end_time_seconds 텐서 float32
세그먼트/라벨 텐서
세그먼트/start_time_seconds 텐서 float32
출처 순서
소스/오디오 오디오 (160000,) 정수16
소스/라벨 클래스 레이블 int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

소란/잔향(기본 구성)

  • 구성 설명 : 기본 반향 오디오.

  • 다운로드 크기 : 7.35 GiB

  • 데이터세트 크기 : 43.20 GiB

  • ( tfds.as_dataframe ):

소란 / 처리되지 않은

  • 구성 설명 : 추가 잔향 없이 처리되지 않은 오디오입니다.

  • 다운로드 크기 : 8.28 GiB

  • 데이터세트 크기 : 45.58 GiB

  • ( tfds.as_dataframe ):