시간 경과에 따른 오디오 데이터의 시각화를 생성합니다.
스펙트로그램은 오디오 정보를 일련의 주파수 정보 조각(각 시간 창당 하나의 조각)으로 표시하는 표준 방법입니다. 이들을 순서대로 결합함으로써 시간이 지남에 따라 소리의 독특한 지문을 형성합니다.
이 작업은 샘플의 창 너비 및 슬라이스 간에 창을 이동할 거리를 지정하는 보폭과 함께 -1~1 범위의 부동 소수점으로 저장된 오디오 데이터를 입력으로 수신할 것으로 예상합니다. 이를 통해 3차원 출력이 생성됩니다. 첫 번째 차원은 입력의 채널에 대한 것이므로 예를 들어 스테레오 오디오 입력에는 두 개가 있습니다. 두 번째 차원은 연속적인 주파수 슬라이스를 갖는 시간입니다. 세 번째 차원에는 해당 시간 조각 동안 각 주파수에 대한 진폭 값이 있습니다.
이는 이미지로 변환 및 저장될 때 레이아웃이 일반적인 스펙트로그램에서 시계 방향으로 90도 회전됨을 의미합니다. 시간은 Y축을 따라 하강하며 주파수는 왼쪽에서 오른쪽으로 감소합니다.
결과의 각 값은 현재 샘플 창에서 FFT의 실수부와 허수부의 합의 제곱근을 나타냅니다. 이런 방식으로 가장 낮은 차원은 현재 창의 각 주파수의 전력을 나타내고 인접한 창은 다음 차원에서 연결됩니다.
이 작업이 수행하는 작업을 보다 직관적이고 시각적으로 보려면 tensorflow/examples/wav_to_spectrogram을 실행하여 오디오 파일을 읽고 결과 스펙트로그램을 PNG 이미지로 저장할 수 있습니다.
중첩 클래스
수업 | 오디오스펙트로그램.옵션 | AudioSpectrogram 의 선택적 속성 |
상수
끈 | OP_NAME | TensorFlow 코어 엔진에서 알려진 이 작업의 이름 |
공개 방법
출력 < TFloat32 > | 출력 () 텐서의 기호 핸들을 반환합니다. |
정적 오디오 스펙트로그램 | |
정적 AudioSpectrogram.Options | MagnitudeSquared (부울 크기Squared) |
출력 < TFloat32 > | 스펙트로그램 () 오디오 주파수를 이미지로 3D로 표현합니다. |
상속된 메서드
상수
공개 정적 최종 문자열 OP_NAME
TensorFlow 코어 엔진에서 알려진 이 작업의 이름
공개 방법
공개 출력 < TFloat32 > asOutput ()
텐서의 기호 핸들을 반환합니다.
TensorFlow 작업에 대한 입력은 다른 TensorFlow 작업의 출력입니다. 이 메서드는 입력 계산을 나타내는 기호 핸들을 얻는 데 사용됩니다.
공개 정적 AudioSpectrogram 생성 ( 범위 범위, 피연산자 < TFloat32 > 입력, 긴 windowSize, 긴 보폭, 옵션... 옵션)
새로운 AudioSpectrogram 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.
매개변수
범위 | 현재 범위 |
---|---|
입력 | 오디오 데이터의 부동 표현입니다. |
창크기 | 샘플의 입력 창 너비입니다. 최고의 효율성을 위해서는 2의 거듭제곱이어야 하지만 다른 값도 허용됩니다. |
보폭 | 인접한 샘플 창의 중심이 얼마나 떨어져 있어야 하는지입니다. |
옵션 | 선택적 속성 값을 전달합니다. |
보고
- AudioSpectrogram의 새로운 인스턴스
공개 정적 AudioSpectrogram.Options 크기Squared (부울 크기Squared)
매개변수
크기제곱 | 크기의 제곱을 반환할지 아니면 크기만 반환할지 여부입니다. 크기 제곱을 사용하면 추가 계산을 피할 수 있습니다. |
---|