- opis :
Zestaw danych Free Universal Sound Separation (FUSS) to baza danych dowolnych miksów dźwięków i odniesień na poziomie źródła, do wykorzystania w eksperymentach dotyczących dowolnej separacji dźwięku.
To są oficjalne dane dotyczące separacji dźwięku dla zadania 4 wyzwania DCASE2020: Wykrywanie i separacja zdarzeń dźwiękowych w środowiskach domowych.
Omówienie: Dane dźwiękowe FUSS pochodzą z przedpremierowego zestawu danych Freesound znanego jako (FSD50k), zestawu danych zdarzeń dźwiękowych złożonego z treści Freesound z adnotacjami z etykietami z AudioSet Ontology. Korzystając z etykiet FSD50K, te pliki źródłowe zostały sprawdzone w taki sposób, że prawdopodobnie zawierają tylko jeden rodzaj dźwięku. Etykiety nie są dostarczane dla tych plików źródłowych i nie są uważane za część wyzwania. Na potrzeby wyzwania DCASE Task4 Sound Separation and Event Detection systemy nie powinny używać etykiet FSD50K, nawet jeśli mogą one stać się dostępne po wydaniu FSD50K.
Aby stworzyć mikstury, 10-sekundowe klipy źródeł są łączone z symulowanymi reakcjami impulsowymi pomieszczenia i dodawane razem. Każda 10-sekundowa mieszanka zawiera od 1 do 4 źródeł. Pliki źródłowe dłuższe niż 10 sekund są uważane za źródła „w tle”. Każda mieszanka zawiera jedno źródło tła, które jest aktywne przez cały czas trwania. Zapewniamy: recepturę oprogramowania do tworzenia zestawu danych, odpowiedzi impulsowe pomieszczenia oraz oryginalne źródło dźwięku.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
Kod źródłowy :
tfds.audio.Fuss
Wersje :
-
1.2.0
(domyślnie): Brak informacji o wersji.
-
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1000 |
'train' | 20 000 |
'validation' | 1000 |
- Struktura funkcji :
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
ID | Napinacz | strunowy | ||
zacina się | Napinacz | strunowy | ||
mieszanka_audio | Audio | (160000,) | int16 | |
segmenty | Sekwencja | |||
segmenty/czas_końca_sekund | Napinacz | pływak32 | ||
segmenty/etykieta | Napinacz | strunowy | ||
segmenty/czas_początkowy_sekundy | Napinacz | pływak32 | ||
źródła | Sekwencja | |||
źródła/dźwięk | Audio | (160000,) | int16 | |
źródła/wytwórnia | Etykieta klasy | int64 |
Nadzorowane klucze (zobacz dokument
as_supervised
):('mixture_audio', 'sources')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
zamieszanie/pogłos (domyślna konfiguracja)
Opis konfiguracji : Domyślny dźwięk pogłosowy.
Rozmiar pliku do pobrania :
7.35 GiB
Rozmiar zestawu danych :
43.20 GiB
Przykłady ( tfds.as_dataframe ):
zamieszanie / nieprzetworzone
Opis konfiguracji: Nieprzetworzony dźwięk bez dodatkowego pogłosu.
Rozmiar pliku do pobrania :
8.28 GiB
Rozmiar zestawu danych :
45.58 GiB
Przykłady ( tfds.as_dataframe ):