AudioSpectrogram

כיתת גמר ציבורית AudioSpectrogram

מייצר הדמיה של נתוני אודיו לאורך זמן.

ספקטרוגרמות הן דרך סטנדרטית לייצוג מידע שמע כסדרה של פרוסות של מידע תדר, פרוסה אחת לכל חלון זמן. על ידי צירוף אלה יחד לרצף, הם יוצרים טביעת אצבע ייחודית של הצליל לאורך זמן.

אופציה זו מצפה לקבל נתוני אודיו כקלט, המאוחסנים כצפים בטווח -1 עד 1, יחד עם רוחב חלון בדגימות, וצעד המציין כמה רחוק להעביר את החלון בין פרוסות. מתוך כך הוא מייצר פלט תלת מימדי. המימד הראשון הוא עבור הערוצים בכניסה, כך שלכניסת אודיו סטריאו יהיו שניים כאן למשל. הממד השני הוא זמן, עם פרוסות תדר עוקבות. למימד השלישי יש ערך משרעת עבור כל תדר במהלך פרוסת זמן זו.

המשמעות היא שהפריסה כשהיא מומרת ונשמרת כתמונה מסובבת 90 מעלות בכיוון השעון מספקטרוגרמה טיפוסית. הזמן יורד במורד ציר ה-Y, והתדירות יורדת משמאל לימין.

כל ערך בתוצאה מייצג את השורש הריבועי של סכום החלקים האמיתיים והדמיוניים של FFT בחלון הדגימות הנוכחי. באופן זה, הממד הנמוך ביותר מייצג את ההספק של כל תדר בחלון הנוכחי, וחלונות סמוכים משורשרים בממד הבא.

כדי לקבל מבט אינטואיטיבי וויזואלי יותר על מה שהפעולה הזו עושה, אתה יכול להפעיל את tensorflow/examples/wav_to_spectrogram כדי לקרוא קובץ שמע ולשמור את הספקטרוגרם שנוצר כתמונת PNG.

כיתות מקוננות

מעמד אודיוספקטרוגרם.אפשרויות תכונות אופציונליות עבור AudioSpectrogram

קבועים

חוּט OP_NAME השם של המבצע הזה, כפי שידוע על ידי מנוע הליבה של TensorFlow

שיטות ציבוריות

פלט < TFloat32 >
asOutput ()
מחזירה את הידית הסמלית של הטנזור.
אודיוספקטרוגרם סטטי
ליצור ( היקף היקף, Operand < TFloat32 > קלט, גודל חלון ארוך, צעד ארוך, אפשרויות... אפשרויות)
שיטת מפעל ליצירת מחלקה העוטפת פעולת AudioSpectrogram חדשה.
סטטי AudioSpectrogram.Options
magnitudeSquared (גודל בוליאני)
פלט < TFloat32 >
ספקטרוגרם ()
ייצוג תלת מימדי של תדרי השמע כתמונה.

שיטות בירושה

קבועים

מחרוזת סופית סטטית ציבורית OP_NAME

השם של המבצע הזה, כפי שידוע על ידי מנוע הליבה של TensorFlow

ערך קבוע: "אודיוספקטרוגרם"

שיטות ציבוריות

פלט ציבורי < TFloat32 > asOutput ()

מחזירה את הידית הסמלית של הטנזור.

כניסות לפעולות TensorFlow הן יציאות של פעולת TensorFlow אחרת. שיטה זו משמשת להשגת ידית סמלית המייצגת את חישוב הקלט.

יצירת AudioSpectrogram סטטית ציבורית ( היקף היקף, Operand < TFloat32 > קלט, גודל חלון ארוך, צעד ארוך, אפשרויות... אפשרויות)

שיטת מפעל ליצירת מחלקה העוטפת פעולת AudioSpectrogram חדשה.

פרמטרים
תְחוּם ההיקף הנוכחי
קֶלֶט ייצוג צף של נתוני אודיו.
גודל חלון כמה רחב חלון הקלט בדוגמאות. עבור היעילות הגבוהה ביותר זה צריך להיות חזק של שתיים, אבל ערכים אחרים מתקבלים.
לִצְעוֹד באיזו מרחק צריך להיות מרכז החלונות לדוגמה הסמוכים.
אפשרויות נושא ערכי תכונות אופציונליות
החזרות
  • מופע חדש של AudioSpectrogram

אודיוספקטרוגרם סטטי ציבורי. אפשרויות magnitudeSquared (גודל בוליאני בריבוע)

פרמטרים
magnitudeSquared האם להחזיר את הגודל בריבוע או רק את הגודל. שימוש בגודל בריבוע יכול למנוע חישובים נוספים.

פלט ציבורי < TFloat32 > ספקטרוגרם ()

ייצוג תלת מימדי של תדרי השמע כתמונה.