- opis :
Zbiór danych dźwiękowych wypowiadanych słów, który ma pomóc w szkoleniu i ocenie systemów wykrywania słów kluczowych. Jego głównym celem jest zapewnienie sposobu na zbudowanie i przetestowanie małych modeli, które wykrywają, kiedy wypowiadane jest pojedyncze słowo, z zestawu dziesięciu słów docelowych, z jak najmniejszą liczbą fałszywych trafień spowodowanych hałasem w tle lub niepowiązaną mową. Należy zauważyć, że w zestawie pociągów i walidacji etykieta „nieznany” jest znacznie bardziej rozpowszechniona niż etykiety słów docelowych lub szumu tła. Jedną różnicą w stosunku do wersji wydania jest obsługa cichych segmentów. Podczas gdy w zestawie testowym segmenty ciszy są zwykłymi 1-sekundowymi plikami, w treningu są one dostarczane jako długie segmenty w folderze „background_noise”. Tutaj dzielimy te szumy tła na 1-sekundowe klipy, a także zachowujemy jeden z plików dla zestawu sprawdzania poprawności.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://arxiv.org/abs/1804.03209
Kod źródłowy :
tfds.datasets.speech_commands.Builder
Wersje :
-
0.0.3
(domyślnie): Napraw typ danych audio za pomocą dtype=tf.int16.
-
Rozmiar pliku do pobrania :
2.37 GiB
Rozmiar zestawu danych :
8.17 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 4890 |
'train' | 85511 |
'validation' | 10102 |
- Struktura funkcji :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
audio | Audio | (Nic,) | int16 | |
etykieta | Etykieta klasy | int64 |
Klucze nadzorowane (zobacz dokument
as_supervised
):('audio', 'label')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}