- Descriptif :
Un ensemble de données audio de mots parlés conçu pour aider à former et à évaluer les systèmes de repérage de mots clés. Son objectif principal est de fournir un moyen de construire et de tester de petits modèles qui détectent quand un seul mot est prononcé, à partir d'un ensemble de dix mots cibles, avec aussi peu de faux positifs que possible provenant du bruit de fond ou de la parole sans rapport. Notez que dans l'ensemble de train et de validation, l'étiquette "inconnu" est beaucoup plus répandue que les étiquettes des mots cibles ou du bruit de fond. Une différence par rapport à la version finale est la gestion des segments silencieux. Alors que dans l'ensemble de test, les segments de silence sont des fichiers réguliers d'une seconde, dans la formation, ils sont fournis sous forme de longs segments sous le dossier "background_noise". Ici, nous divisons ces bruits de fond en clips d'une seconde et gardons également l'un des fichiers pour le jeu de validation.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://arxiv.org/abs/1804.03209
Code source :
tfds.datasets.speech_commands.Builder
Versions :
-
0.0.3
(par défaut) : correction du type de données audio avec dtype=tf.int16.
-
Taille du téléchargement :
2.37 GiB
Taille du jeu de données :
8.17 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 4 890 |
'train' | 85 511 |
'validation' | 10 102 |
- Structure des fonctionnalités :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
l'audio | l'audio | (Aucun,) | int16 | |
étiquette | Étiquette de classe | int64 |
Touches supervisées (Voir
as_supervised
doc ):('audio', 'label')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}