chiffre_parlé

Descriptif :

Un ensemble de données audio gratuit de chiffres prononcés. Pensez MNIST pour l'audio.

Un jeu de données audio/vocal simple composé d'enregistrements de chiffres prononcés dans des fichiers wav à 8 kHz. Les enregistrements sont découpés de manière à avoir un silence presque minimal au début et à la fin.

5 haut-parleurs
2 500 enregistrements (50 de chaque chiffre par locuteur)
Prononciations anglaises

Les fichiers sont nommés au format suivant : {digitLabel} {speakerName} {index}.wav

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/Jakobovski/free-spoken-digit-dataset
Code source : tfds.datasets.spoken_digit.Builder
Versions :
- 1.0.9 (par défaut) : aucune note de version.
Taille du téléchargement : 11.42 MiB
Taille du jeu de données : 45.68 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :

Diviser	Exemples
`'train'`	2 500

Structure des fonctionnalités :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
l'audio	l'audio	(Aucun,)	int64
audio/nom de fichier	Texte		chaîne
étiquette	Étiquette de classe		int64

Touches supervisées (Voir as_supervised doc ): ('audio', 'label')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):

Citation :

@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}

chiffre_parlé Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

chiffre_parlé