Produz uma visualização de dados de áudio ao longo do tempo.
Os espectrogramas são uma forma padrão de representar informações de áudio como uma série de fatias de informações de frequência, uma fatia para cada janela de tempo. Ao juntá-los em uma sequência, eles formam uma impressão digital distinta do som ao longo do tempo.
Esta operação espera receber dados de áudio como entrada, armazenados como pontos flutuantes no intervalo de -1 a 1, juntamente com uma largura de janela em amostras e um passo especificando até que ponto a janela deve ser movida entre as fatias. A partir disso, ele gera uma saída tridimensional. A primeira dimensão é para os canais na entrada, então uma entrada de áudio estéreo teria dois aqui, por exemplo. A segunda dimensão é o tempo, com sucessivas fatias de frequência. A terceira dimensão possui um valor de amplitude para cada frequência durante esse intervalo de tempo.
Isso significa que o layout, quando convertido e salvo como uma imagem, é girado 90 graus no sentido horário a partir de um espectrograma típico. O tempo desce no eixo Y e a frequência diminui da esquerda para a direita.
Cada valor no resultado representa a raiz quadrada da soma das partes reais e imaginárias de uma FFT na janela atual de amostras. Desta forma, a dimensão mais baixa representa a potência de cada frequência na janela atual, e as janelas adjacentes são concatenadas na próxima dimensão.
Para obter uma visão mais intuitiva e visual do que esta operação faz, você pode executar tensorflow/examples/wav_to_spectrogram para ler um arquivo de áudio e salvar o espectrograma resultante como uma imagem PNG.
Classes aninhadas
aula | AudioSpectrogram.Opções | Atributos opcionais para AudioSpectrogram |
Constantes
Corda | OP_NAME | O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow |
Métodos Públicos
Saída < TFloat32 > | asOutput () Retorna o identificador simbólico do tensor. |
Espectrograma de áudio estático | create ( Escopo , Operando <TFloat32> entrada, Long windowSize, Long stride, Options... options) Método de fábrica para criar uma classe que envolve uma nova operação AudioSpectrogram. |
AudioSpectrogram.Options estático | magnitudeSquared (magnitude booleanaSquared) |
Saída < TFloat32 > | espectrograma () Representação 3D das frequências de áudio como uma imagem. |
Métodos herdados
Constantes
String final estática pública OP_NAME
O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow
Métodos Públicos
Saída pública < TFloat32 > asOutput ()
Retorna o identificador simbólico do tensor.
As entradas para operações do TensorFlow são saídas de outra operação do TensorFlow. Este método é usado para obter um identificador simbólico que representa o cálculo da entrada.
public static AudioSpectrogram create ( Scope scope, Operand < TFloat32 > input, Long windowSize, Long stride, Options... options)
Método de fábrica para criar uma classe que envolve uma nova operação AudioSpectrogram.
Parâmetros
escopo | escopo atual |
---|---|
entrada | Representação flutuante de dados de áudio. |
tamanho da janela | Qual a largura da janela de entrada nas amostras. Para maior eficiência, esta deve ser uma potência de dois, mas outros valores são aceitos. |
passo | Qual deve ser a distância entre o centro das janelas de amostra adjacentes. |
opções | carrega valores de atributos opcionais |
Devoluções
- uma nova instância do AudioSpectrogram
public static AudioSpectrogram.Options magnitudeSquared (Boolean magnitudeSquared)
Parâmetros
magnitudeQuadrado | Seja para retornar a magnitude quadrada ou apenas a magnitude. Usar a magnitude quadrada pode evitar cálculos extras. |
---|