- Descriptif :
L'ensemble de données Free Universal Sound Separation (FUSS) est une base de données de mélanges sonores arbitraires et de références au niveau de la source, à utiliser dans des expériences sur la séparation arbitraire du son.
Il s'agit des données officielles de séparation acoustique pour la tâche 4 du défi DCASE2020 : détection et séparation des événements sonores dans les environnements domestiques.
Présentation : Les données audio FUSS proviennent d'une pré-version de l'ensemble de données Freesound connu sous le nom de (FSD50k), un ensemble de données d'événements sonores composé de contenu Freesound annoté avec des étiquettes de l'ontologie AudioSet. À l'aide des étiquettes FSD50K, ces fichiers source ont été filtrés de telle sorte qu'ils ne contiennent probablement qu'un seul type de son. Les étiquettes ne sont pas fournies pour ces fichiers source et ne sont pas considérées comme faisant partie du défi. Dans le cadre du challenge DCASE Task4 Sound Separation and Event Detection, les systèmes ne doivent pas utiliser d'étiquettes FSD50K, même si elles peuvent devenir disponibles lors de la sortie de FSD50K.
Pour créer des mélanges, des clips de 10 secondes de sources sont convolués avec des réponses impulsionnelles de salle simulées et additionnés. Chaque mélange de 10 secondes contient entre 1 et 4 sources. Les fichiers source de plus de 10 secondes sont considérés comme des sources "d'arrière-plan". Chaque mélange contient une source de fond, qui est active pendant toute la durée. Nous fournissons : une recette logicielle pour créer l'ensemble de données, les réponses impulsionnelles de la pièce et la source audio d'origine.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
Code source :
tfds.audio.Fuss
Versions :
-
1.2.0
(par défaut) : aucune note de version.
-
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 000 |
'train' | 20 000 |
'validation' | 1 000 |
- Structure des fonctionnalités :
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
identifiant | Tenseur | chaîne de caractères | ||
confitures | Tenseur | chaîne de caractères | ||
mélange_audio | l'audio | (160000,) | int16 | |
segments | Séquence | |||
segments/heure_de_fin_secondes | Tenseur | float32 | ||
segment/étiquette | Tenseur | chaîne de caractères | ||
segments/heure_début_secondes | Tenseur | float32 | ||
sources | Séquence | |||
source/audio | l'audio | (160000,) | int16 | |
source/étiquette | Étiquette de classe | int64 |
Touches supervisées (Voir
as_supervised
doc ):('mixture_audio', 'sources')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
agitation/réverbération (config par défaut)
Description de la configuration : audio réverbéré par défaut.
Taille du téléchargement :
7.35 GiB
Taille du jeu de données :
43.20 GiB
Exemples ( tfds.as_dataframe ):
agitation / non transformé
Description de la configuration : Audio non traité sans réverbération supplémentaire.
Taille du téléchargement :
8.28 GiB
Taille du jeu de données :
45.58 GiB
Exemples ( tfds.as_dataframe ):