mowa_komendy

opis :

Zbiór danych dźwiękowych wypowiadanych słów, który ma pomóc w szkoleniu i ocenie systemów wykrywania słów kluczowych. Jego głównym celem jest zapewnienie sposobu na zbudowanie i przetestowanie małych modeli, które wykrywają, kiedy wypowiadane jest pojedyncze słowo, z zestawu dziesięciu słów docelowych, z jak najmniejszą liczbą fałszywych trafień spowodowanych hałasem w tle lub niepowiązaną mową. Należy zauważyć, że w zestawie pociągów i walidacji etykieta „nieznany” jest znacznie bardziej rozpowszechniona niż etykiety słów docelowych lub szumu tła. Jedną różnicą w stosunku do wersji wydania jest obsługa cichych segmentów. Podczas gdy w zestawie testowym segmenty ciszy są zwykłymi 1-sekundowymi plikami, w treningu są one dostarczane jako długie segmenty w folderze „background_noise”. Tutaj dzielimy te szumy tła na 1-sekundowe klipy, a także zachowujemy jeden z plików dla zestawu sprawdzania poprawności.

Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://arxiv.org/abs/1804.03209
Kod źródłowy : tfds.datasets.speech_commands.Builder
Wersje :
- 0.0.3 (domyślnie): Napraw typ danych audio za pomocą dtype=tf.int16.
Rozmiar pliku do pobrania : 2.37 GiB
Rozmiar zestawu danych : 8.17 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :

Podział	Przykłady
`'test'`	4890
`'train'`	85511
`'validation'`	10102

Struktura funkcji :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
audio	Audio	(Nic,)	int16
etykieta	Etykieta klasy		int64

Klucze nadzorowane (zobacz dokument as_supervised ): ('audio', 'label')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):

Cytat :

@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}