- Descrizione :
Un set di dati audio di parole pronunciate progettato per aiutare a formare e valutare i sistemi di individuazione delle parole chiave. Il suo obiettivo principale è fornire un modo per costruire e testare piccoli modelli che rilevano quando viene pronunciata una singola parola, da un insieme di dieci parole target, con il minor numero possibile di falsi positivi da rumore di fondo o discorsi non correlati. Si noti che nel treno e nel set di convalida, l'etichetta "sconosciuto" è molto più prevalente delle etichette delle parole target o del rumore di fondo. Una differenza rispetto alla versione di rilascio è la gestione dei segmenti silenziosi. Mentre nel set di test i segmenti di silenzio sono normali file da 1 secondo, nel training sono forniti come segmenti lunghi nella cartella "background_noise". Qui dividiamo questi rumori di fondo in clip da 1 secondo e conserviamo anche uno dei file per il set di convalida.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://arxiv.org/abs/1804.03209
Codice sorgente :
tfds.datasets.speech_commands.Builder
Versioni :
-
0.0.3
(predefinito): corregge il tipo di dati audio con dtype=tf.int16.
-
Dimensioni del download :
2.37 GiB
Dimensione del set di dati:
8.17 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 4.890 |
'train' | 85.511 |
'validation' | 10.102 |
- Struttura delle caratteristiche :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
Audio | Audio | (Nessuno,) | int16 | |
etichetta | ClassLabel | int64 |
Chiavi supervisionate (Vedi
as_supervised
doc ):('audio', 'label')
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}