discorso_comandi

Descrizione :

Un set di dati audio di parole pronunciate progettato per aiutare a formare e valutare i sistemi di individuazione delle parole chiave. Il suo obiettivo principale è fornire un modo per costruire e testare piccoli modelli che rilevano quando viene pronunciata una singola parola, da un insieme di dieci parole target, con il minor numero possibile di falsi positivi da rumore di fondo o discorsi non correlati. Si noti che nel treno e nel set di convalida, l'etichetta "sconosciuto" è molto più prevalente delle etichette delle parole target o del rumore di fondo. Una differenza rispetto alla versione di rilascio è la gestione dei segmenti silenziosi. Mentre nel set di test i segmenti di silenzio sono normali file da 1 secondo, nel training sono forniti come segmenti lunghi nella cartella "background_noise". Qui dividiamo questi rumori di fondo in clip da 1 secondo e conserviamo anche uno dei file per il set di convalida.

Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://arxiv.org/abs/1804.03209
Codice sorgente : tfds.datasets.speech_commands.Builder
Versioni :
- 0.0.3 (predefinito): corregge il tipo di dati audio con dtype=tf.int16.
Dimensioni del download : 2.37 GiB
Dimensione del set di dati: 8.17 GiB
Cache automatica ( documentazione ): No
Divisioni :

Diviso	Esempi
`'test'`	4.890
`'train'`	85.511
`'validation'`	10.102

Struttura delle caratteristiche :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
Audio	Audio	(Nessuno,)	int16
etichetta	ClassLabel		int64

Chiavi supervisionate (Vedi as_supervised doc ): ('audio', 'label')
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):

Citazione :

@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}