BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models
Created by
Haebom
저자
Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard
개요
본 논문은 모노 오디오와 화자 및 청취자의 위치 정보를 기반으로 실제 청취를 모방하는 바이노럴 오디오를 합성하는 바이노럴 렌더링 문제를 다룹니다. 기존 방법들이 렌더링 품질과 스트리밍 추론에 어려움을 겪는다는 점을 지적하며, 고품질 바이노럴 오디오 합성을 위해 흐름 일치(flow matching) 기반의 스트리밍 바이노럴 음성 합성 프레임워크인 BinauralFlow를 제안합니다. BinauralFlow는 바이노럴 렌더링을 회귀 문제가 아닌 생성 문제로 간주하고, 조건부 흐름 일치 모델을 설계하여 고품질 오디오를 렌더링합니다. 또한, 과거 정보만을 기반으로 현재 오디오 프레임을 추정하는 인과적 U-Net 아키텍처를 설계하여 스트리밍 추론에 적합하도록 생성 모델을 조정합니다. 스트리밍 STFT/ISTFT 연산, 버퍼 뱅크, 중간점 솔버, 조기 건너뛰기 스케줄을 통합한 연속 추론 파이프라인을 도입하여 렌더링 연속성과 속도를 개선합니다. 정량적 및 정성적 평가를 통해 기존 최고 성능 방법보다 우수함을 보여주며, 지각 연구를 통해 실제 녹음과 거의 구분할 수 없다는 것을 확인하였습니다 (42% 혼동률).
시사점, 한계점
•
시사점:
◦
흐름 일치 기반의 새로운 바이노럴 오디오 합성 프레임워크인 BinauralFlow 제시
◦
스트리밍 추론을 위한 인과적 U-Net 아키텍처 설계 및 적용
◦
연속적인 고품질 바이노럴 오디오 합성을 위한 효율적인 추론 파이프라인 구축
◦
실제 녹음과 거의 구분이 불가능한 수준의 고품질 바이노럴 오디오 합성 달성 (42% 혼동률)