समय के साथ ऑडियो डेटा का विज़ुअलाइज़ेशन तैयार करता है।
स्पेक्ट्रोग्राम ऑडियो जानकारी को आवृत्ति जानकारी के स्लाइस की एक श्रृंखला के रूप में प्रस्तुत करने का एक मानक तरीका है, समय की प्रत्येक विंडो के लिए एक स्लाइस। इन्हें एक क्रम में जोड़कर, वे समय के साथ ध्वनि का एक विशिष्ट फिंगरप्रिंट बनाते हैं।
यह ऑप एक इनपुट के रूप में ऑडियो डेटा प्राप्त करने की अपेक्षा करता है, जिसे -1 से 1 की रेंज में फ़्लोट के रूप में संग्रहीत किया जाता है, साथ में नमूनों में एक विंडो की चौड़ाई, और स्लाइस के बीच विंडो को कितनी दूर ले जाना है यह निर्दिष्ट करने वाला एक स्ट्राइड। इससे यह त्रि-आयामी आउटपुट उत्पन्न करता है। पहला आयाम इनपुट में चैनलों के लिए है, इसलिए उदाहरण के लिए स्टीरियो ऑडियो इनपुट में यहां दो होंगे। दूसरा आयाम समय है, क्रमिक आवृत्ति स्लाइस के साथ। तीसरे आयाम में उस समय स्लाइस के दौरान प्रत्येक आवृत्ति के लिए एक आयाम मान होता है।
इसका मतलब यह है कि जब लेआउट को एक छवि के रूप में परिवर्तित और सहेजा जाता है तो उसे एक सामान्य स्पेक्ट्रोग्राम से 90 डिग्री दक्षिणावर्त घुमाया जाता है। समय Y अक्ष से नीचे की ओर उतर रहा है, और आवृत्ति बाएँ से दाएँ घटती जाती है।
परिणाम में प्रत्येक मान नमूनों की वर्तमान विंडो पर एफएफटी के वास्तविक और काल्पनिक भागों के योग के वर्गमूल को दर्शाता है। इस तरह, सबसे निचला आयाम वर्तमान विंडो में प्रत्येक आवृत्ति की शक्ति का प्रतिनिधित्व करता है, और आसन्न विंडो को अगले आयाम में संयोजित किया जाता है।
यह ऑपरेशन क्या करता है, इसे अधिक सहज और दृश्य रूप से देखने के लिए, आप एक ऑडियो फ़ाइल में पढ़ने के लिए टेंसरफ्लो/उदाहरण/wav_to_स्पेक्ट्रोग्राम चला सकते हैं और परिणामी स्पेक्ट्रोग्राम को पीएनजी छवि के रूप में सहेज सकते हैं।
नेस्टेड क्लासेस
कक्षा | ऑडियोस्पेक्ट्रोग्राम.विकल्प | AudioSpectrogram के लिए वैकल्पिक विशेषताएँ |
स्थिरांक
डोरी | OP_NAME | इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है |
सार्वजनिक तरीके
आउटपुट < TFloat32 > | आउटपुट के रूप में () टेंसर का प्रतीकात्मक हैंडल लौटाता है। |
स्थिर ऑडियोस्पेक्ट्रोग्राम | |
स्थिर ऑडियोस्पेक्ट्रोग्राम.विकल्प | परिमाणवर्ग (बूलियन परिमाणवर्ग) |
आउटपुट < TFloat32 > | स्पेक्ट्रोग्राम () एक छवि के रूप में ऑडियो आवृत्तियों का 3डी प्रतिनिधित्व। |
विरासत में मिली विधियाँ
स्थिरांक
सार्वजनिक स्थैतिक अंतिम स्ट्रिंग OP_NAME
इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है
सार्वजनिक तरीके
सार्वजनिक आउटपुट < TFloat32 > asOutput ()
टेंसर का प्रतीकात्मक हैंडल लौटाता है।
TensorFlow संचालन के इनपुट किसी अन्य TensorFlow ऑपरेशन के आउटपुट हैं। इस पद्धति का उपयोग एक प्रतीकात्मक हैंडल प्राप्त करने के लिए किया जाता है जो इनपुट की गणना का प्रतिनिधित्व करता है।
सार्वजनिक स्थैतिक ऑडियोस्पेक्ट्रोग्राम बनाएं ( स्कोप स्कोप, ऑपरेंड < TFloat32 > इनपुट, लंबी विंडो आकार, लंबी स्ट्राइड, विकल्प... विकल्प)
एक नए ऑडियोस्पेक्ट्रोग्राम ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।
पैरामीटर
दायरा | वर्तमान दायरा |
---|---|
इनपुट | ऑडियो डेटा का फ़्लोट प्रतिनिधित्व। |
खिड़की का आकार | नमूनों में इनपुट विंडो कितनी चौड़ी है. उच्चतम दक्षता के लिए यह दो की शक्ति होनी चाहिए, लेकिन अन्य मान भी स्वीकार किए जाते हैं। |
छलांग | आसन्न नमूना खिड़कियों का केंद्र कितना दूर होना चाहिए। |
विकल्प | वैकल्पिक गुण मान रखता है |
रिटर्न
- ऑडियोस्पेक्ट्रोग्राम का एक नया उदाहरण
सार्वजनिक स्थैतिक ऑडियोस्पेक्ट्रोग्राम.विकल्प परिमाण वर्ग (बूलियन परिमाण वर्ग)
पैरामीटर
परिमाणवर्ग | क्या वर्ग परिमाण लौटाना है या केवल परिमाण लौटाना है। वर्ग परिमाण का उपयोग करने से अतिरिक्त गणनाओं से बचा जा सकता है। |
---|