AudioSpectrogram

공개 최종 클래스 AudioSpectrogram

시간 경과에 따른 오디오 데이터의 시각화를 생성합니다.

스펙트로그램은 오디오 정보를 일련의 주파수 정보 조각(각 시간 창당 하나의 조각)으로 표시하는 표준 방법입니다. 이들을 순서대로 결합함으로써 시간이 지남에 따라 소리의 독특한 지문을 형성합니다.

이 작업은 샘플의 창 너비 및 슬라이스 간에 창을 이동할 거리를 지정하는 보폭과 함께 -1~1 범위의 부동 소수점으로 저장된 오디오 데이터를 입력으로 수신할 것으로 예상합니다. 이를 통해 3차원 출력이 생성됩니다. 첫 번째 차원은 입력의 채널에 대한 것이므로 예를 들어 스테레오 오디오 입력에는 두 개가 있습니다. 두 번째 차원은 연속적인 주파수 슬라이스를 갖는 시간입니다. 세 번째 차원에는 해당 시간 조각 동안 각 주파수에 대한 진폭 값이 있습니다.

이는 이미지로 변환 및 저장될 때 레이아웃이 일반적인 스펙트로그램에서 시계 방향으로 90도 회전됨을 의미합니다. 시간은 Y축을 따라 하강하며 주파수는 왼쪽에서 오른쪽으로 감소합니다.

결과의 각 값은 현재 샘플 창에서 FFT의 실수부와 허수부의 합의 제곱근을 나타냅니다. 이런 방식으로 가장 낮은 차원은 현재 창의 각 주파수의 전력을 나타내고 인접한 창은 다음 차원에서 연결됩니다.

이 작업이 수행하는 작업을 보다 직관적이고 시각적으로 보려면 tensorflow/examples/wav_to_spectrogram을 실행하여 오디오 파일을 읽고 결과 스펙트로그램을 PNG 이미지로 저장할 수 있습니다.

중첩 클래스

수업 오디오스펙트로그램.옵션 AudioSpectrogram 의 선택적 속성

상수

OP_NAME TensorFlow 코어 엔진에서 알려진 이 작업의 이름

공개 방법

출력 < TFloat32 >
출력 ()
텐서의 기호 핸들을 반환합니다.
정적 오디오 스펙트로그램
생성 ( 범위 범위, 피연산자 < TFloat32 > 입력, 긴 창 크기, 긴 보폭, 옵션... 옵션)
새로운 AudioSpectrogram 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.
정적 AudioSpectrogram.Options
MagnitudeSquared (부울 크기Squared)
출력 < TFloat32 >
스펙트로그램 ()
오디오 주파수를 이미지로 3D로 표현합니다.

상속된 메서드

상수

공개 정적 최종 문자열 OP_NAME

TensorFlow 코어 엔진에서 알려진 이 작업의 이름

상수 값: "오디오스펙트로그램"

공개 방법

공개 출력 < TFloat32 > asOutput ()

텐서의 기호 핸들을 반환합니다.

TensorFlow 작업에 대한 입력은 다른 TensorFlow 작업의 출력입니다. 이 메서드는 입력 계산을 나타내는 기호 핸들을 얻는 데 사용됩니다.

공개 정적 AudioSpectrogram 생성 ( 범위 범위, 피연산자 < TFloat32 > 입력, 긴 windowSize, 긴 보폭, 옵션... 옵션)

새로운 AudioSpectrogram 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.

매개변수
범위 현재 범위
입력 오디오 데이터의 부동 표현입니다.
창크기 샘플의 입력 창 너비입니다. 최고의 효율성을 위해서는 2의 거듭제곱이어야 하지만 다른 값도 허용됩니다.
보폭 인접한 샘플 창의 중심이 얼마나 떨어져 있어야 하는지입니다.
옵션 선택적 속성 값을 전달합니다.
보고
  • AudioSpectrogram의 새로운 인스턴스

공개 정적 AudioSpectrogram.Options 크기Squared (부울 크기Squared)

매개변수
크기제곱 크기의 제곱을 반환할지 아니면 크기만 반환할지 여부입니다. 크기 제곱을 사용하면 추가 계산을 피할 수 있습니다.

공개 출력 < TFloat32 > 스펙트로그램 ()

오디오 주파수를 이미지로 3D로 표현합니다.