Menghasilkan visualisasi data audio dari waktu ke waktu.
Spektogram adalah cara standar untuk merepresentasikan informasi audio sebagai rangkaian potongan informasi frekuensi, satu potongan untuk setiap jendela waktu. Dengan menggabungkannya menjadi satu rangkaian, mereka membentuk sidik jari suara yang khas dari waktu ke waktu.
Operasi ini mengharapkan untuk menerima data audio sebagai masukan, disimpan sebagai float dalam rentang -1 hingga 1, bersama dengan lebar jendela dalam sampel, dan langkah yang menentukan seberapa jauh jendela harus dipindahkan antar irisan. Dari sini menghasilkan keluaran tiga dimensi. Dimensi pertama adalah untuk saluran masukan, jadi masukan audio stereo akan memiliki dua saluran di sini misalnya. Dimensi kedua adalah waktu, dengan irisan frekuensi yang berurutan. Dimensi ketiga memiliki nilai amplitudo untuk setiap frekuensi selama irisan waktu tersebut.
Ini berarti tata letak ketika dikonversi dan disimpan sebagai gambar diputar 90 derajat searah jarum jam dari spektogram biasa. Waktu menurun sumbu Y, dan frekuensi menurun dari kiri ke kanan.
Setiap nilai dalam hasil mewakili akar kuadrat dari jumlah bagian nyata dan imajiner dari FFT pada jendela sampel saat ini. Dengan cara ini, dimensi terendah mewakili kekuatan setiap frekuensi pada jendela saat ini, dan jendela yang berdekatan digabungkan dalam dimensi berikutnya.
Untuk mendapatkan tampilan yang lebih intuitif dan visual tentang fungsi operasi ini, Anda dapat menjalankan tensorflow/examples/wav_to_spectrogram untuk membaca file audio dan menyimpan spektogram yang dihasilkan sebagai gambar PNG.
Kelas Bersarang
kelas | AudioSpectogram.Opsi | Atribut opsional untuk AudioSpectrogram |
Konstanta
Rangkaian | OP_NAME | Nama operasi ini dikenal dengan mesin inti TensorFlow |
Metode Publik
Keluaran < TFloat32 > | sebagai Keluaran () Mengembalikan pegangan simbolis tensor. |
Spektogram Audio statis | |
AudioSpectrogram.Options statis | magnitudoSquared (magnitudo BooleanSquared) |
Keluaran < TFloat32 > | spektogram () Representasi 3D dari frekuensi audio sebagai gambar. |
Metode Warisan
Konstanta
String akhir statis publik OP_NAME
Nama operasi ini dikenal dengan mesin inti TensorFlow
Metode Publik
Keluaran publik < TFloat32 > asOutput ()
Mengembalikan pegangan simbolis tensor.
Masukan ke operasi TensorFlow adalah keluaran dari operasi TensorFlow lainnya. Metode ini digunakan untuk mendapatkan pegangan simbolis yang mewakili perhitungan input.
pembuatan AudioSpectrogram statis publik ( Lingkup cakupan, input Operan <TFloat32> , Ukuran jendela panjang, Langkah panjang, Opsi... opsi)
Metode pabrik untuk membuat kelas yang membungkus operasi AudioSpectrogram baru.
Parameter
cakupan | ruang lingkup saat ini |
---|---|
memasukkan | Representasi data audio mengambang. |
ukuran jendela | Seberapa lebar jendela masukan dalam sampel. Untuk efisiensi tertinggi, nilai ini harus dipangkatkan dua, tetapi nilai lain dapat diterima. |
melangkah | Seberapa jauh seharusnya jarak bagian tengah jendela sampel yang berdekatan. |
pilihan | membawa nilai atribut opsional |
Kembali
- contoh baru AudioSpectrogram
AudioSpectrogram statis publik. Pilihan magnitudoSquared (Boolean magnitudoSquared)
Parameter
besarnyaKuadrat | Apakah akan mengembalikan besaran kuadrat atau hanya besarannya saja. Menggunakan besaran kuadrat dapat menghindari perhitungan tambahan. |
---|