s'agiter

  • Descriptif :

L'ensemble de données Free Universal Sound Separation (FUSS) est une base de données de mélanges sonores arbitraires et de références au niveau de la source, à utiliser dans des expériences sur la séparation arbitraire du son.

Il s'agit des données officielles de séparation acoustique pour la tâche 4 du défi DCASE2020 : détection et séparation des événements sonores dans les environnements domestiques.

Présentation : Les données audio FUSS proviennent d'une pré-version de l'ensemble de données Freesound connu sous le nom de (FSD50k), un ensemble de données d'événements sonores composé de contenu Freesound annoté avec des étiquettes de l'ontologie AudioSet. À l'aide des étiquettes FSD50K, ces fichiers source ont été filtrés de telle sorte qu'ils ne contiennent probablement qu'un seul type de son. Les étiquettes ne sont pas fournies pour ces fichiers source et ne sont pas considérées comme faisant partie du défi. Dans le cadre du challenge DCASE Task4 Sound Separation and Event Detection, les systèmes ne doivent pas utiliser d'étiquettes FSD50K, même si elles peuvent devenir disponibles lors de la sortie de FSD50K.

Pour créer des mélanges, des clips de 10 secondes de sources sont convolués avec des réponses impulsionnelles de salle simulées et additionnés. Chaque mélange de 10 secondes contient entre 1 et 4 sources. Les fichiers source de plus de 10 secondes sont considérés comme des sources "d'arrière-plan". Chaque mélange contient une source de fond, qui est active pendant toute la durée. Nous fournissons : une recette logicielle pour créer l'ensemble de données, les réponses impulsionnelles de la pièce et la source audio d'origine.

Diviser Exemples
'test' 1 000
'train' 20 000
'validation' 1 000
  • Structure des fonctionnalités :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
identifiant Tenseur chaîne de caractères
confitures Tenseur chaîne de caractères
mélange_audio l'audio (160000,) int16
segments Séquence
segments/heure_de_fin_secondes Tenseur float32
segment/étiquette Tenseur chaîne de caractères
segments/heure_début_secondes Tenseur float32
sources Séquence
source/audio l'audio (160000,) int16
source/étiquette Étiquette de classe int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

agitation/réverbération (config par défaut)

  • Description de la configuration : audio réverbéré par défaut.

  • Taille du téléchargement : 7.35 GiB

  • Taille du jeu de données : 43.20 GiB

  • Exemples ( tfds.as_dataframe ):

agitation / non transformé

  • Description de la configuration : Audio non traité sans réverbération supplémentaire.

  • Taille du téléchargement : 8.28 GiB

  • Taille du jeu de données : 45.58 GiB

  • Exemples ( tfds.as_dataframe ):