PoDAR: Power-Disentangled Audio Representation for Generative Modeling

작성자

Haebom

카테고리

Empty

저자

Alejandro Luebs, Mithilesh Vaidya, Ishaan Kumar, Sumukh Badam, Stephen W. Bailey, Matthew Bendel, Jose Sotelo, Xingzhe He

💡 개요

본 논문은 오디오 생성 모델의 성능 향상을 위해 잠재 공간의 모델링 가능성을 개선하는 새로운 프레임워크인 PoDAR(Power-Disentangled Audio Representation)를 제안한다. PoDAR는 랜덤 파워 증강과 잠재 일관성 목표를 활용하여 신호 파워를 불변하는 의미 내용과 분리함으로써, 잠재 공간 모델링을 용이하게 한다. 이를 통해 downstream 생성 모델의 수렴 속도를 높이고 최종 성능을 향상시킨다.

🔑 시사점 및 한계

•

오디오 생성 모델의 잠재 공간에서 신호 파워와 의미 콘텐츠를 분리하는 것이 모델의 학습 효율성과 최종 성능에 긍정적인 영향을 미친다.

•

PoDAR 프레임워크는 잠재 공간 모델링의 어려움을 해결하여 생성 모델의 수렴 속도를 가속화하고, 스피커 유사도 및 음성 품질과 같은 성능 지표를 향상시킨다.

•

파워를 별도의 채널로 분리함으로써 조건부 생성 모델(CFG)을 파워 불변 콘텐츠에만 적용하여 더 높은 스케일에서도 안정적인 제어를 가능하게 한다.

•

본 연구는 오디오 잠재 공간 분해의 중요성을 강조하며, 향후 오디오 생성 모델 연구 방향에 대한 시사점을 제공한다.

PDF 보기

Made with Slashpage