หน้านี้ได้รับการแปลโดย Cloud Translation API

AudioSpectrogram

AudioSpectrogram คลาสสุดท้ายสาธารณะ

สร้างการแสดงภาพข้อมูลเสียงเมื่อเวลาผ่านไป

สเปกโตรแกรมเป็นวิธีมาตรฐานในการแสดงข้อมูลเสียงเป็นชุดข้อมูลความถี่ส่วนต่างๆ หนึ่งส่วนสำหรับแต่ละหน้าต่างเวลา เมื่อรวมสิ่งเหล่านี้เข้าด้วยกันเป็นลำดับ จะทำให้เกิดลักษณะเฉพาะของเสียงเมื่อเวลาผ่านไป

การดำเนินการนี้คาดว่าจะได้รับข้อมูลเสียงเป็นอินพุต โดยจัดเก็บเป็นแบบลอยตัวในช่วง -1 ถึง 1 พร้อมด้วยความกว้างของหน้าต่างในตัวอย่าง และการก้าวย่างโดยระบุระยะที่จะย้ายหน้าต่างระหว่างส่วนต่างๆ จากนี้จะสร้างเอาต์พุตสามมิติ มิติแรกมีไว้สำหรับช่องสัญญาณในอินพุต ดังนั้นอินพุตเสียงสเตอริโอจะมีสองช่องในที่นี้เป็นต้น มิติที่สองคือเวลา โดยมีการแบ่งความถี่ต่อเนื่องกัน มิติที่สามมีค่าแอมพลิจูดสำหรับแต่ละความถี่ในช่วงเวลานั้น

ซึ่งหมายความว่าเค้าโครงเมื่อแปลงและบันทึกเป็นรูปภาพจะหมุน 90 องศาตามเข็มนาฬิกาจากสเปกโตรแกรมทั่วไป เวลาลดต่ำลงตามแกน Y และความถี่จะลดลงจากซ้ายไปขวา

แต่ละค่าในผลลัพธ์แสดงถึงรากที่สองของผลรวมของส่วนจริงและจินตภาพของ FFT บนหน้าต่างตัวอย่างปัจจุบัน ด้วยวิธีนี้ มิติต่ำสุดแสดงถึงกำลังของแต่ละความถี่ในหน้าต่างปัจจุบัน และหน้าต่างที่อยู่ติดกันจะถูกต่อกันในมิติถัดไป

เพื่อให้เห็นภาพได้ง่ายขึ้นว่าการดำเนินการนี้ทำอะไรได้บ้าง คุณสามารถเรียกใช้ tensorflow/examples/wav_to_spectrogram เพื่ออ่านไฟล์เสียงและบันทึกสเปกโตรแกรมผลลัพธ์เป็นรูปภาพ PNG

คลาสที่ซ้อนกัน

ระดับ AudioSpectrogram ตัวเลือก คุณลักษณะเพิ่มเติมสำหรับ AudioSpectrogram

ค่าคงที่

สตริง OP_NAME ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow

วิธีการสาธารณะ

เอาท์พุต < TFloat32 >	เป็นเอาท์พุต () ส่งกลับค่าแฮนเดิลสัญลักษณ์ของเทนเซอร์
AudioSpectrogram แบบคงที่	สร้าง (ขอบเขต ขอบเขต , ตัวดำเนินการ < TFloat32 > อินพุต, ขนาดหน้าต่างยาว, การก้าวยาว, ตัวเลือก... ตัวเลือก) วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ AudioSpectrogram ใหม่
AudioSpectrogram.Options แบบคงที่	ขนาดSquared (ขนาดบูลีนSquared)
เอาท์พุต < TFloat32 >	สเปกโตรแกรม () การแสดงความถี่เสียงแบบ 3 มิติเป็นรูปภาพ

วิธีการสืบทอด

จากคลาส org.tensorflow.op.RawOp

บูลีนสุดท้าย	เท่ากับ (วัตถุ obj)
int สุดท้าย	แฮชโค้ด ()
การดำเนินการ	สหกรณ์ () ส่งกลับหน่วยการคำนวณนี้เป็นการ `Operation` เดียว
สตริงสุดท้าย	toString ()

จากคลาส java.lang.Object

บูลีน	เท่ากับ (วัตถุ arg0)
คลาสสุดท้าย<?>	รับคลาส ()
ภายใน	แฮชโค้ด ()
โมฆะสุดท้าย	แจ้ง ()
โมฆะสุดท้าย	แจ้งทั้งหมด ()
สตริง	toString ()
โมฆะสุดท้าย	รอสักครู่ (ยาว arg0, int arg1)
โมฆะสุดท้าย	รอ (ยาว arg0)
โมฆะสุดท้าย	รอ ()

จากอินเทอร์เฟ ซ org.tensorflow.op.Op

บทคัดย่อ ExecutionEnvironment	สิ่งแวดล้อม () ส่งคืนสภาพแวดล้อมการดำเนินการที่ op นี้ถูกสร้างขึ้น
การดำเนินการ ที่เป็นนามธรรม	สหกรณ์ () ส่งกลับหน่วยการคำนวณนี้เป็นการ `Operation` เดียว

จากอินเทอร์ เฟซ org.tensorflow.Operand

เอาต์พุต นามธรรม < TFloat32 >	เป็นเอาท์พุต () ส่งกลับค่าแฮนเดิลสัญลักษณ์ของเทนเซอร์
นามธรรม TFloat32	แอสเทนเซอร์ () ส่งกลับเทนเซอร์ที่ตัวถูกดำเนินการนี้
รูปร่าง นามธรรม	รูปร่าง () ส่งกลับรูปร่าง (อาจทราบได้บางส่วน) ของเทนเซอร์ที่อ้างอิงโดย `Output` ของตัวถูกดำเนินการนี้
คลาสนามธรรม < TFloat32 >	พิมพ์ () ส่งกลับประเภทเทนเซอร์ของตัวถูกดำเนินการนี้

จากอินเทอร์ เฟซ org.tensorflow.ndarray.Shaped

บทคัดย่อ	อันดับ ()
รูปร่าง นามธรรม	รูปร่าง ()
ยาวเป็นนามธรรม	ขนาด () คำนวณและส่งกลับขนาดรวมของคอนเทนเนอร์นี้เป็นจำนวนค่า

ค่าคงที่

สตริงสุดท้ายแบบคงที่สาธารณะ OP_NAME

ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow

ค่าคงที่: "AudioSpectrogram"

วิธีการสาธารณะ

เอาท์พุท สาธารณะ < TFloat32 > asOutput ()

ส่งกลับค่าแฮนเดิลสัญลักษณ์ของเทนเซอร์

อินพุตสำหรับการดำเนินการ TensorFlow คือเอาต์พุตของการดำเนินการ TensorFlow อื่น วิธีการนี้ใช้เพื่อรับหมายเลขอ้างอิงสัญลักษณ์ที่แสดงถึงการคำนวณอินพุต

การสร้าง AudioSpectrogram แบบคงที่สาธารณะ (ขอบเขต ขอบเขต , ตัวดำเนินการ < TFloat32 > อินพุต, ขนาดหน้าต่างยาว, การก้าวยาว, ตัวเลือก... ตัวเลือก)

วิธีการจากโรงงานเพื่อสร้างคลาสที่รวมการดำเนินการ AudioSpectrogram ใหม่

พารามิเตอร์

ขอบเขต	ขอบเขตปัจจุบัน
ป้อนข้อมูล	การแสดงข้อมูลเสียงแบบลอยตัว
ขนาดหน้าต่าง	หน้าต่างอินพุตในตัวอย่างกว้างแค่ไหน เพื่อประสิทธิภาพสูงสุด ค่านี้ควรเป็นค่ายกกำลัง 2 แต่ค่าอื่นๆ ก็สามารถยอมรับได้
ก้าวย่าง	ศูนย์กลางของหน้าต่างตัวอย่างที่อยู่ติดกันควรอยู่ห่างกันมากเพียงใด
ตัวเลือก	มีค่าแอตทริบิวต์ทางเลือก

การส่งคืน

ตัวอย่างใหม่ของ AudioSpectrogram

AudioSpectrogram แบบคงที่สาธารณะ ขนาดตัวเลือก Squared (ขนาดบูลีน Squared)

พารามิเตอร์

ขนาดกำลังสอง	ไม่ว่าจะส่งคืนขนาดกำลังสองหรือเพียงขนาด การใช้ขนาดกำลังสองสามารถหลีกเลี่ยงการคำนวณเพิ่มเติมได้

เอาท์พุท สาธารณะ < TFloat32 > สเปกโตรแกรม ()

การแสดงความถี่เสียงแบบ 3 มิติเป็นรูปภาพ

AudioSpectrogram จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

คลาสที่ซ้อนกัน

ค่าคงที่

วิธีการสาธารณะ

วิธีการสืบทอด

ค่าคงที่

สตริงสุดท้ายแบบคงที่สาธารณะ OP_NAME

วิธีการสาธารณะ

เอาท์พุท สาธารณะ < TFloat32 > asOutput ()

พารามิเตอร์

การส่งคืน

AudioSpectrogram แบบคงที่สาธารณะ ขนาดตัวเลือก Squared (ขนาดบูลีน Squared)

พารามิเตอร์

เอาท์พุท สาธารณะ < TFloat32 > สเปกโตรแกรม ()

AudioSpectrogram