야단법석

설명 :

FUSS(Free Universal Sound Separation) 데이터 세트는 임의의 소리 분리 실험에 사용하기 위한 임의의 소리 혼합 및 소스 수준 참조의 데이터베이스입니다.

DCASE2020 Challenge Task 4: 국내 환경에서 소리 이벤트 감지 및 분리에 대한 공식 소리 분리 데이터입니다.

개요: FUSS 오디오 데이터는 AudioSet Ontology의 레이블로 주석이 달린 Freesound 콘텐츠로 구성된 사운드 이벤트 데이터 세트인 (FSD50k)로 알려진 Freesound 데이터 세트의 사전 릴리스에서 제공됩니다. FSD50K 레이블을 사용하여 이러한 소스 파일은 단일 유형의 사운드만 포함할 수 있도록 선별되었습니다. 이러한 소스 파일에는 레이블이 제공되지 않으며 챌린지의 일부로 간주되지 않습니다. DCASE Task4 소리 분리 및 이벤트 감지 챌린지의 목적을 위해 시스템은 FSD50K 릴리스에서 사용할 수 있게 되더라도 FSD50K 레이블을 사용해서는 안 됩니다.

혼합물을 생성하기 위해 소스의 10초 클립이 시뮬레이션된 룸 임펄스 응답과 컨볼루션되고 함께 추가됩니다. 각 10초 혼합물에는 1~4개의 소스가 포함됩니다. 10초보다 긴 소스 파일은 "백그라운드" 소스로 간주됩니다. 모든 혼합물에는 전체 기간 동안 활성화되는 하나의 배경 소스가 포함되어 있습니다. 데이터 세트, 실내 임펄스 응답 및 원본 소스 오디오를 생성하는 소프트웨어 레시피를 제공합니다.

추가 문서 : 코드가 있는 논문에서 탐색
홈페이지 : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
소스 코드 : tfds.audio.Fuss
버전 :
- 1.2.0 (기본값): 릴리스 정보가 없습니다.
자동 캐시 ( 문서 ): 아니요
분할 :

나뉘다	예
`'test'`	1,000
`'train'`	20,000
`'validation'`	1,000

기능 구조 :

FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})

기능 문서 :

특징	수업	모양	D타입
	풍모Dict
ID	텐서		끈
잼	텐서		끈
mix_audio	오디오	(160000,)	정수16
세그먼트	순서
세그먼트/end_time_seconds	텐서		float32
세그먼트/라벨	텐서		끈
세그먼트/start_time_seconds	텐서		float32
출처	순서
소스/오디오	오디오	(160000,)	정수16
소스/라벨	클래스 레이블		int64

감독 키 ( as_supervised 문서 참조): ('mixture_audio', 'sources')
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

소란/잔향(기본 구성)

구성 설명 : 기본 반향 오디오.
다운로드 크기 : 7.35 GiB
데이터세트 크기 : 43.20 GiB
예 ( tfds.as_dataframe ):

소란 / 처리되지 않은

구성 설명 : 추가 잔향 없이 처리되지 않은 오디오입니다.
다운로드 크기 : 8.28 GiB
데이터세트 크기 : 45.58 GiB
예 ( tfds.as_dataframe ):

야단법석 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

소란/잔향(기본 구성)

소란 / 처리되지 않은

야단법석