falado_dígito

Descrição :

Um conjunto de dados de áudio gratuito de dígitos falados. Pense no MNIST para áudio.

Um conjunto de dados de áudio/fala simples que consiste em gravações de dígitos falados em arquivos wav a 8kHz. As gravações são cortadas para que tenham o mínimo de silêncio no início e no fim.

5 alto-falantes
2.500 gravações (50 de cada dígito por alto-falante)
pronúncias em inglês

Os arquivos são nomeados no seguinte formato: {digitLabel} {speakerName} {index}.wav

Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/Jakobovski/free-spoken-digit-dataset
Código -fonte: tfds.datasets.spoken_digit.Builder
Versões :
- 1.0.9 (padrão): Sem notas de versão.
Tamanho do download : 11.42 MiB
Tamanho do conjunto de dados : 45.68 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'train'`	2.500

Estrutura de recursos :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
áudio	áudio	(Nenhum,)	int64
áudio/nome do arquivo	Texto		corda
rótulo	ClassLabel		int64

Chaves supervisionadas (consulte o documento as_supervised ): ('audio', 'label')
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):

Citação :

@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}

falado_dígito Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

falado_dígito