AudioSpectrogram

AudioSpectrogram คลาสสุดท้ายสาธารณะ

สร้างการแสดงภาพข้อมูลเสียงเมื่อเวลาผ่านไป

สเปกโตรแกรมเป็นวิธีมาตรฐานในการแสดงข้อมูลเสียงเป็นชุดข้อมูลความถี่ส่วนต่างๆ หนึ่งส่วนสำหรับแต่ละหน้าต่างเวลา เมื่อรวมสิ่งเหล่านี้เข้าด้วยกันเป็นลำดับ จะทำให้เกิดลักษณะเฉพาะของเสียงเมื่อเวลาผ่านไป

การดำเนินการนี้คาดว่าจะได้รับข้อมูลเสียงเป็นอินพุต โดยจัดเก็บเป็นแบบลอยตัวในช่วง -1 ถึง 1 พร้อมด้วยความกว้างของหน้าต่างในตัวอย่าง และการก้าวย่างโดยระบุระยะที่จะย้ายหน้าต่างระหว่างส่วนต่างๆ จากนี้จะสร้างเอาต์พุตสามมิติ มิติแรกมีไว้สำหรับช่องสัญญาณในอินพุต ดังนั้นอินพุตเสียงสเตอริโอจะมีสองช่องในที่นี้เป็นต้น มิติที่สองคือเวลา โดยมีการแบ่งความถี่ต่อเนื่องกัน มิติที่สามมีค่าแอมพลิจูดสำหรับแต่ละความถี่ในช่วงเวลานั้น

ซึ่งหมายความว่าเค้าโครงเมื่อแปลงและบันทึกเป็นรูปภาพจะหมุน 90 องศาตามเข็มนาฬิกาจากสเปกโตรแกรมทั่วไป เวลาลดต่ำลงตามแกน Y และความถี่จะลดลงจากซ้ายไปขวา

แต่ละค่าในผลลัพธ์แสดงถึงรากที่สองของผลรวมของส่วนจริงและจินตภาพของ FFT บนหน้าต่างตัวอย่างปัจจุบัน ด้วยวิธีนี้ มิติต่ำสุดแสดงถึงกำลังของแต่ละความถี่ในหน้าต่างปัจจุบัน และหน้าต่างที่อยู่ติดกันจะถูกต่อกันในมิติถัดไป

เพื่อให้เห็นภาพได้ง่ายขึ้นว่าการดำเนินการนี้ทำอะไรได้บ้าง คุณสามารถเรียกใช้ tensorflow/examples/wav_to_spectrogram เพื่ออ่านไฟล์เสียงและบันทึกสเปกโตรแกรมผลลัพธ์เป็นรูปภาพ PNG

คลาสที่ซ้อนกัน

ระดับ AudioSpectrogram ตัวเลือก คุณลักษณะเพิ่มเติมสำหรับ AudioSpectrogram

ค่าคงที่

สตริง OP_NAME ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow

วิธีการสาธารณะ

เอาท์พุต < TFloat32 >
เป็นเอาท์พุต ()
ส่งกลับค่าแฮนเดิลสัญลักษณ์ของเทนเซอร์
AudioSpectrogram แบบคงที่
สร้าง (ขอบเขต ขอบเขต , ตัวดำเนินการ < TFloat32 > อินพุต, ขนาดหน้าต่างยาว, การก้าวยาว, ตัวเลือก... ตัวเลือก)
วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ AudioSpectrogram ใหม่
AudioSpectrogram.Options แบบคงที่
ขนาดSquared (ขนาดบูลีนSquared)
เอาท์พุต < TFloat32 >
สเปกโตรแกรม ()
การแสดงความถี่เสียงแบบ 3 มิติเป็นรูปภาพ

วิธีการสืบทอด

ค่าคงที่

สตริงสุดท้ายแบบคงที่สาธารณะ OP_NAME

ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow

ค่าคงที่: "AudioSpectrogram"

วิธีการสาธารณะ

เอาท์พุท สาธารณะ < TFloat32 > asOutput ()

ส่งกลับค่าแฮนเดิลสัญลักษณ์ของเทนเซอร์

อินพุตสำหรับการดำเนินการ TensorFlow คือเอาต์พุตของการดำเนินการ TensorFlow อื่น วิธีการนี้ใช้เพื่อรับหมายเลขอ้างอิงสัญลักษณ์ที่แสดงถึงการคำนวณอินพุต

การสร้าง AudioSpectrogram แบบคงที่สาธารณะ (ขอบเขต ขอบเขต , ตัวดำเนินการ < TFloat32 > อินพุต, ขนาดหน้าต่างยาว, การก้าวยาว, ตัวเลือก... ตัวเลือก)

วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ AudioSpectrogram ใหม่

พารามิเตอร์
ขอบเขต ขอบเขตปัจจุบัน
ป้อนข้อมูล การแสดงข้อมูลเสียงแบบลอยตัว
ขนาดหน้าต่าง หน้าต่างอินพุตในตัวอย่างกว้างแค่ไหน เพื่อประสิทธิภาพสูงสุด ค่านี้ควรเป็นค่ายกกำลัง 2 แต่ค่าอื่นๆ ก็สามารถยอมรับได้
ก้าวย่าง ศูนย์กลางของหน้าต่างตัวอย่างที่อยู่ติดกันควรอยู่ห่างกันมากเพียงใด
ตัวเลือก มีค่าแอตทริบิวต์ทางเลือก
การส่งคืน
  • ตัวอย่างใหม่ของ AudioSpectrogram

AudioSpectrogram แบบคงที่สาธารณะ ขนาดตัวเลือก Squared (ขนาดบูลีน Squared)

พารามิเตอร์
ขนาดกำลังสอง ไม่ว่าจะส่งคืนขนาดกำลังสองหรือเพียงขนาด การใช้ขนาดกำลังสองสามารถหลีกเลี่ยงการคำนวณเพิ่มเติมได้

เอาท์พุท สาธารณะ < TFloat32 > สเปกโตรแกรม ()

การแสดงความถี่เสียงแบบ 3 มิติเป็นรูปภาพ