Zaman içinde ses verilerinin görselleştirilmesini sağlar.
Spektrogramlar, ses bilgisini, her zaman penceresi için bir dilim olmak üzere, bir dizi frekans bilgisi dilimleri olarak temsil etmenin standart bir yoludur. Bunları bir dizi halinde birleştirerek zaman içinde sesin ayırt edici bir parmak izini oluştururlar.
Bu operasyon, -1 ila 1 aralığında kayan nokta olarak saklanan ses verilerini, örneklerdeki pencere genişliği ve pencerenin dilimler arasında ne kadar uzağa taşınacağını belirten bir adımla birlikte bir giriş olarak almayı bekler. Bundan üç boyutlu bir çıktı üretir. İlk boyut girişteki kanallar içindir, dolayısıyla stereo ses girişinde örneğin burada iki tane bulunur. İkinci boyut, birbirini takip eden frekans dilimleriyle zamandır. Üçüncü boyut, o zaman dilimindeki her frekans için bir genlik değerine sahiptir.
Bu, görüntü olarak dönüştürülüp kaydedildiğinde düzenin tipik bir spektrogramdan saat yönünde 90 derece döndürüldüğü anlamına gelir. Zaman Y ekseninde aşağı doğru iniyor ve frekans soldan sağa doğru azalıyor.
Sonuçtaki her değer, örneklerin geçerli penceresindeki bir FFT'nin gerçek ve sanal kısımlarının toplamının karekökünü temsil eder. Bu şekilde en düşük boyut, geçerli penceredeki her frekansın gücünü temsil eder ve bitişik pencereler bir sonraki boyutta birleştirilir.
Bu işlemin ne yaptığına daha sezgisel ve görsel bir bakış sağlamak için tensorflow/examples/wav_to_spectrogram komutunu çalıştırarak bir ses dosyasını okuyabilir ve elde edilen spektrogramı PNG görüntüsü olarak kaydedebilirsiniz.
İç İçe Sınıflar
sınıf | AudioSpectrogram.Seçenekler | AudioSpectrogram için isteğe bağlı özellikler |
Sabitler
Sicim | OP_NAME | Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı |
Genel Yöntemler
Çıkış < TFloat32 > | Çıkış olarak () Tensörün sembolik tutamacını döndürür. |
statik Ses Spektrogramı | oluştur ( Kapsam kapsamı, İşlenen < TFloat32 > giriş, Uzun pencere Boyutu, Uzun adım, Seçenekler... seçenekler) Yeni bir AudioSpectrogram işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi. |
Statik AudioSpectrogram.Seçenekler | büyüklükKare (Boolean büyüklükKare) |
Çıkış < TFloat32 > | spektrogram () Ses frekanslarının bir görüntü olarak 3 boyutlu gösterimi. |
Kalıtsal Yöntemler
Sabitler
genel statik son Dize OP_NAME
Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı
Genel Yöntemler
genel Çıkış < TFloat32 > asOutput ()
Tensörün sembolik tutamacını döndürür.
TensorFlow işlemlerinin girdileri, başka bir TensorFlow işleminin çıktılarıdır. Bu yöntem, girişin hesaplanmasını temsil eden sembolik bir tanıtıcı elde etmek için kullanılır.
genel statik AudioSpectrogram oluşturma ( Kapsam kapsamı, İşlenen < TFloat32 > giriş, Uzun pencere Boyutu, Uzun adım, Seçenekler... seçenekler)
Yeni bir AudioSpectrogram işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.
Parametreler
kapsam | mevcut kapsam |
---|---|
giriş | Ses verilerinin kayan gösterimi. |
Pencere boyutu | Örneklerde giriş penceresinin genişliği. En yüksek verimlilik için bu ikinin katı olmalıdır, ancak diğer değerler de kabul edilir. |
adım | Bitişik örnek pencerelerin merkezinin birbirinden ne kadar uzakta olması gerektiği. |
seçenekler | isteğe bağlı nitelik değerlerini taşır |
İadeler
- AudioSpectrogram'ın yeni bir örneği
genel statik SesSpektrogramı.Seçenekler büyüklüğüKare (Boolean büyüklüğüKare)
Parametreler
büyüklükKare | Kare büyüklüğünün mü yoksa sadece büyüklüğün mü döndürüleceği. Kare büyüklüğün kullanılması ekstra hesaplamaları önleyebilir. |
---|