- Descripción :
El conjunto de datos Free Universal Sound Separation (FUSS) es una base de datos de mezclas de sonido arbitrarias y referencias a nivel de fuente, para usar en experimentos sobre separación de sonido arbitraria.
Estos son los datos oficiales de separación de sonido para la tarea 4 del desafío DCASE2020: Detección y separación de eventos de sonido en entornos domésticos.
Descripción general: los datos de audio de FUSS provienen de una versión preliminar del conjunto de datos de Freesound conocido como (FSD50k), un conjunto de datos de eventos de sonido compuesto por contenido de Freesound anotado con etiquetas de AudioSet Ontology. Utilizando las etiquetas FSD50K, estos archivos de origen se han filtrado de modo que probablemente solo contengan un único tipo de sonido. No se proporcionan etiquetas para estos archivos de origen y no se consideran parte del desafío. A los efectos del desafío DCASE Task4 Sound Separation and Event Detection, los sistemas no deben usar etiquetas FSD50K, aunque pueden estar disponibles con el lanzamiento de FSD50K.
Para crear mezclas, los clips de fuentes de 10 segundos se convolucionan con respuestas de impulso de sala simuladas y se suman. Cada mezcla de 10 segundos contiene entre 1 y 4 fuentes. Los archivos de origen de más de 10 segundos se consideran fuentes de "fondo". Cada mezcla contiene una fuente de fondo, que está activa durante todo el tiempo. Proporcionamos: una receta de software para crear el conjunto de datos, las respuestas de impulso de la sala y la fuente de audio original.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
Código fuente :
tfds.audio.Fuss
Versiones :
-
1.2.0
(predeterminado): Sin notas de la versión.
-
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,000 |
'train' | 20,000 |
'validation' | 1,000 |
- Estructura de características :
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
identificación | Tensor | cuerda | ||
Enjambres | Tensor | cuerda | ||
mezcla_audio | Audio | (160000,) | int16 | |
segmentos | Secuencia | |||
segmentos/fin_tiempo_segundos | Tensor | flotar32 | ||
segmentos/etiqueta | Tensor | cuerda | ||
segmentos/tiempo_de_inicio_segundos | Tensor | flotar32 | ||
fuentes | Secuencia | |||
fuentes/audio | Audio | (160000,) | int16 | |
fuentes/etiqueta | Etiqueta de clase | int64 |
Teclas supervisadas (ver documento
as_supervised
):('mixture_audio', 'sources')
Figura ( tfds.show_examples ): no compatible.
Cita :
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
alboroto/reverberante (configuración predeterminada)
Descripción de la configuración : audio reverberado predeterminado.
Tamaño de descarga :
7.35 GiB
Tamaño del conjunto de datos :
43.20 GiB
Ejemplos ( tfds.as_dataframe ):
alboroto/sin procesar
Descripción de la configuración : audio sin procesar sin reverberación adicional.
Tamaño de descarga :
8.28 GiB
Tamaño del conjunto de datos :
45.58 GiB
Ejemplos ( tfds.as_dataframe ):