Produce una visualizzazione dei dati audio nel tempo.
Gli spettrogrammi sono un modo standard di rappresentare le informazioni audio come una serie di porzioni di informazioni sulla frequenza, una porzione per ciascuna finestra temporale. Unendoli insieme in una sequenza, formano nel tempo un'impronta distintiva del suono.
Questa operazione prevede di ricevere dati audio come input, memorizzati come numeri in virgola mobile nell'intervallo da -1 a 1, insieme a una larghezza della finestra in campioni e un passo che specifica di quanto spostare la finestra tra le sezioni. Da questo genera un output tridimensionale. La prima dimensione riguarda i canali in ingresso, quindi un ingresso audio stereo ne avrebbe due qui, ad esempio. La seconda dimensione è il tempo, con sezioni di frequenza successive. La terza dimensione ha un valore di ampiezza per ciascuna frequenza durante quell'intervallo di tempo.
Ciò significa che il layout quando viene convertito e salvato come immagine viene ruotato di 90 gradi in senso orario rispetto a uno spettrogramma tipico. Il tempo scende lungo l'asse Y e la frequenza diminuisce da sinistra a destra.
Ciascun valore nel risultato rappresenta la radice quadrata della somma delle parti reale e immaginaria di una FFT nella finestra corrente dei campioni. In questo modo, la dimensione più bassa rappresenta la potenza di ciascuna frequenza nella finestra corrente e le finestre adiacenti vengono concatenate nella dimensione successiva.
Per avere uno sguardo più intuitivo e visivo su ciò che fa questa operazione, puoi eseguire tensorflow/examples/wav_to_spectrogram per leggere un file audio e salvare lo spettrogramma risultante come immagine PNG.
Classi nidificate
classe | AudioSpettrogramma.Opzioni | Attributi facoltativi per AudioSpectrogram |
Costanti
Corda | OP_NAME | Il nome di questa operazione, come noto al motore principale di TensorFlow |
Metodi pubblici
Uscita < TFloat32 > | comeuscita () Restituisce l'handle simbolico del tensore. |
Audiospettrogramma statico | crea (ambito ambito , operando < TFloat32 > input, dimensione finestra lunga, passo lungo, opzioni... opzioni) Metodo factory per creare una classe che racchiude una nuova operazione AudioSpectrogram. |
AudioSpectrogram.Options statico | grandezzaSquared (magnitudine booleanaSquared) |
Uscita < TFloat32 > | spettrogramma () Rappresentazione 3D delle frequenze audio come immagine. |
Metodi ereditati
Costanti
Stringa finale statica pubblica OP_NAME
Il nome di questa operazione, come noto al motore principale di TensorFlow
Metodi pubblici
Uscita pubblica < TFloat32 > asOutput ()
Restituisce l'handle simbolico del tensore.
Gli input per le operazioni TensorFlow sono output di un'altra operazione TensorFlow. Questo metodo viene utilizzato per ottenere un handle simbolico che rappresenta il calcolo dell'input.
creazione audiospettrogramma statico pubblico (ambito ambito , ingresso operando < TFloat32 >, dimensione finestra lunga, passo lungo, opzioni... opzioni)
Metodo factory per creare una classe che racchiude una nuova operazione AudioSpectrogram.
Parametri
scopo | ambito attuale |
---|---|
ingresso | Rappresentazione mobile dei dati audio. |
windowSize | Quanto è ampia la finestra di input nei campioni. Per la massima efficienza dovrebbe essere una potenza di due, ma sono accettati altri valori. |
passo | Quanto dovrebbe essere distante il centro delle finestre campione adiacenti. |
opzioni | trasporta valori di attributi opzionali |
ritorna
- una nuova istanza di AudioSpectrogram
pubblico statico AudioSpectrogram.Options grandezzaSquared (Booleano grandezzaSquared)
Parametri
grandezzaQuadrato | Se restituire la grandezza al quadrato o solo la grandezza. L'uso della magnitudo quadrata può evitare calcoli aggiuntivi. |
---|