สร้างการแสดงภาพข้อมูลเสียงเมื่อเวลาผ่านไป
สเปกโตรแกรมเป็นวิธีมาตรฐานในการแสดงข้อมูลเสียงเป็นชุดข้อมูลความถี่ส่วนต่างๆ หนึ่งส่วนสำหรับแต่ละหน้าต่างเวลา เมื่อรวมสิ่งเหล่านี้เข้าด้วยกันเป็นลำดับ จะทำให้เกิดลักษณะเฉพาะของเสียงเมื่อเวลาผ่านไป
การดำเนินการนี้คาดว่าจะได้รับข้อมูลเสียงเป็นอินพุต โดยจัดเก็บเป็นแบบลอยตัวในช่วง -1 ถึง 1 พร้อมด้วยความกว้างของหน้าต่างในตัวอย่าง และการก้าวย่างโดยระบุระยะที่จะย้ายหน้าต่างระหว่างส่วนต่างๆ จากนี้จะสร้างเอาต์พุตสามมิติ มิติแรกมีไว้สำหรับช่องสัญญาณในอินพุต ดังนั้นอินพุตเสียงสเตอริโอจะมีสองช่องในที่นี้เป็นต้น มิติที่สองคือเวลา โดยมีการแบ่งความถี่ต่อเนื่องกัน มิติที่สามมีค่าแอมพลิจูดสำหรับแต่ละความถี่ในช่วงเวลานั้น
ซึ่งหมายความว่าเค้าโครงเมื่อแปลงและบันทึกเป็นรูปภาพจะหมุน 90 องศาตามเข็มนาฬิกาจากสเปกโตรแกรมทั่วไป เวลาลดต่ำลงตามแกน Y และความถี่จะลดลงจากซ้ายไปขวา
แต่ละค่าในผลลัพธ์แสดงถึงรากที่สองของผลรวมของส่วนจริงและจินตภาพของ FFT บนหน้าต่างตัวอย่างปัจจุบัน ด้วยวิธีนี้ มิติต่ำสุดแสดงถึงกำลังของแต่ละความถี่ในหน้าต่างปัจจุบัน และหน้าต่างที่อยู่ติดกันจะถูกต่อกันในมิติถัดไป
เพื่อให้เห็นภาพได้ง่ายขึ้นว่าการดำเนินการนี้ทำอะไรได้บ้าง คุณสามารถเรียกใช้ tensorflow/examples/wav_to_spectrogram เพื่ออ่านไฟล์เสียงและบันทึกสเปกโตรแกรมผลลัพธ์เป็นรูปภาพ PNG
คลาสที่ซ้อนกัน
ระดับ | AudioSpectrogram ตัวเลือก | คุณลักษณะเพิ่มเติมสำหรับ AudioSpectrogram |
ค่าคงที่
สตริง | OP_NAME | ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow |
วิธีการสาธารณะ
เอาท์พุต < TFloat32 > | เป็นเอาท์พุต () ส่งกลับค่าแฮนเดิลสัญลักษณ์ของเทนเซอร์ |
AudioSpectrogram แบบคงที่ | สร้าง (ขอบเขต ขอบเขต , ตัวดำเนินการ < TFloat32 > อินพุต, ขนาดหน้าต่างยาว, การก้าวยาว, ตัวเลือก... ตัวเลือก) วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ AudioSpectrogram ใหม่ |
AudioSpectrogram.Options แบบคงที่ | ขนาดSquared (ขนาดบูลีนSquared) |
เอาท์พุต < TFloat32 > | สเปกโตรแกรม () การแสดงความถี่เสียงแบบ 3 มิติเป็นรูปภาพ |
วิธีการสืบทอด
ค่าคงที่
สตริงสุดท้ายแบบคงที่สาธารณะ OP_NAME
ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow
วิธีการสาธารณะ
เอาท์พุท สาธารณะ < TFloat32 > asOutput ()
ส่งกลับค่าแฮนเดิลสัญลักษณ์ของเทนเซอร์
อินพุตสำหรับการดำเนินการ TensorFlow คือเอาต์พุตของการดำเนินการ TensorFlow อื่น วิธีการนี้ใช้เพื่อรับหมายเลขอ้างอิงสัญลักษณ์ที่แสดงถึงการคำนวณอินพุต
การสร้าง AudioSpectrogram แบบคงที่สาธารณะ (ขอบเขต ขอบเขต , ตัวดำเนินการ < TFloat32 > อินพุต, ขนาดหน้าต่างยาว, การก้าวยาว, ตัวเลือก... ตัวเลือก)
วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ AudioSpectrogram ใหม่
พารามิเตอร์
ขอบเขต | ขอบเขตปัจจุบัน |
---|---|
ป้อนข้อมูล | การแสดงข้อมูลเสียงแบบลอยตัว |
ขนาดหน้าต่าง | หน้าต่างอินพุตในตัวอย่างกว้างแค่ไหน เพื่อประสิทธิภาพสูงสุด ค่านี้ควรเป็นค่ายกกำลัง 2 แต่ค่าอื่นๆ ก็สามารถยอมรับได้ |
ก้าวย่าง | ศูนย์กลางของหน้าต่างตัวอย่างที่อยู่ติดกันควรอยู่ห่างกันมากเพียงใด |
ตัวเลือก | มีค่าแอตทริบิวต์ทางเลือก |
การส่งคืน
- ตัวอย่างใหม่ของ AudioSpectrogram
AudioSpectrogram แบบคงที่สาธารณะ ขนาดตัวเลือก Squared (ขนาดบูลีน Squared)
พารามิเตอร์
ขนาดกำลังสอง | ไม่ว่าจะส่งคืนขนาดกำลังสองหรือเพียงขนาด การใช้ขนาดกำลังสองสามารถหลีกเลี่ยงการคำนวณเพิ่มเติมได้ |
---|