- Descrição :
Um conjunto de dados de áudio gratuito de dígitos falados. Pense no MNIST para áudio.
Um conjunto de dados de áudio/fala simples que consiste em gravações de dígitos falados em arquivos wav a 8kHz. As gravações são cortadas para que tenham o mínimo de silêncio no início e no fim.
5 alto-falantes
2.500 gravações (50 de cada dígito por alto-falante)
pronúncias em inglês
Os arquivos são nomeados no seguinte formato: {digitLabel} {speakerName} {index}.wav
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/Jakobovski/free-spoken-digit-dataset
Código -fonte:
tfds.datasets.spoken_digit.Builder
Versões :
-
1.0.9
(padrão): Sem notas de versão.
-
Tamanho do download :
11.42 MiB
Tamanho do conjunto de dados :
45.68 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2.500 |
- Estrutura de recursos :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'audio/filename': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
áudio | áudio | (Nenhum,) | int64 | |
áudio/nome do arquivo | Texto | corda | ||
rótulo | ClassLabel | int64 |
Chaves supervisionadas (consulte o documento
as_supervised
):('audio', 'label')
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@ONLINE {Free Spoken Digit Dataset,
author = "Zohar Jackson",
title = "Spoken_Digit",
year = "2016",
url = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}