- Описание :
Бесплатный набор данных Universal Sound Separation (FUSS) представляет собой базу данных произвольных звуковых смесей и эталонов исходного уровня для использования в экспериментах по произвольному разделению звуков.
Это официальные данные о разделении звука для DCASE2020 Challenge Task 4: Обнаружение и разделение звуковых событий в домашних условиях.
Обзор: аудиоданные FUSS получены из предварительного выпуска набора данных Freesound, известного как (FSD50k), набора данных звуковых событий, состоящего из содержимого Freesound, аннотированного метками из онтологии AudioSet. Используя метки FSD50K, эти исходные файлы были проверены таким образом, что они, вероятно, содержат только один тип звука. Этим исходным файлам не присваиваются метки, и они не считаются частью задачи. В целях DCASE Task4 Sound Separation and Event Detection, системы не должны использовать метки FSD50K, даже если они могут стать доступными после выпуска FSD50K.
Для создания смесей 10-секундные клипы источников сворачиваются с смоделированными импульсными характеристиками помещения и складываются вместе. Каждая 10-секундная смесь содержит от 1 до 4 источников. Исходные файлы продолжительностью более 10 секунд считаются «фоновыми» источниками. Каждая смесь содержит один фоновый источник, который активен в течение всего времени действия. Мы предоставляем: программный рецепт для создания набора данных, импульсные характеристики помещения и оригинальный исходный звук.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
Исходный код :
tfds.audio.Fuss
Версии :
-
1.2.0
(по умолчанию): нет примечаний к выпуску.
-
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1000 |
'train' | 20 000 |
'validation' | 1000 |
- Структура функции :
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
я бы | Тензор | нить | ||
джемы | Тензор | нить | ||
смесь_аудио | Аудио | (160000,) | int16 | |
сегменты | Последовательность | |||
сегментов/end_time_seconds | Тензор | поплавок32 | ||
сегменты/метка | Тензор | нить | ||
сегментов/start_time_seconds | Тензор | поплавок32 | ||
источники | Последовательность | |||
источники/аудио | Аудио | (160000,) | int16 | |
источники/этикетка | Метка класса | int64 |
Контролируемые ключи (см . документ
as_supervised
):('mixture_audio', 'sources')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
суета/реверберация (конфигурация по умолчанию)
Описание конфигурации : звук реверберации по умолчанию.
Размер загрузки :
7.35 GiB
Размер набора данных :
43.20 GiB
Примеры ( tfds.as_dataframe ):
суета / необработанный
Описание конфига: Необработанный звук без дополнительной реверберации.
Размер загрузки :
8.28 GiB
Размер набора данных :
45.58 GiB
Примеры ( tfds.as_dataframe ):