Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback

Created by
  • Haebom

저자

Jingyi Chen, Ju Seung Byun, Micha Elsner, Pichao Wang, Andrew Perrault

개요

본 논문은 실시간 사용에 비효율적인 확산 모델 기반 TTS의 단점을 해결하기 위해, 강화학습과 인간 피드백을 결합한 DLPO(Diffusion Loss-Guided Policy Optimization) 프레임워크를 제안합니다. DLPO는 기존 학습 손실을 보상 함수에 통합하여 생성 능력을 유지하면서 비효율성을 줄이고, 자연스러움 점수를 활용하여 보상 최적화를 확산 모델 구조와 정렬시켜 음성 품질을 향상시킵니다. WaveGrad 2 모델을 사용한 실험 결과, 객관적 지표(UTMOS 3.65, NISQA 4.02)와 주관적 평가 모두에서 상당한 개선을 보였으며, DLPO 음성을 선호하는 비율이 67%에 달했습니다. 이는 DLPO가 실시간 및 자원 제약 환경에서 효율적이고 고품질의 확산 기반 TTS를 가능하게 할 잠재력을 보여줍니다.

시사점, 한계점

시사점:
확산 모델 기반 TTS의 실시간 성능 및 음성 품질 개선에 대한 새로운 접근법 제시.
강화학습과 인간 피드백을 효과적으로 결합하여 모델의 생성 능력과 효율성을 동시에 향상시킴.
객관적 및 주관적 평가를 통해 DLPO의 우수성을 입증.
실시간 및 자원 제약 환경에서 고품질 TTS 구현 가능성 제시.
한계점:
WaveGrad 2 모델에 대한 평가만 진행되어 다른 확산 모델에 대한 일반화 가능성은 추가 연구 필요.
주관적 평가의 표본 크기 및 다양성에 대한 명시적 언급 부족.
DLPO의 계산 비용 및 복잡성에 대한 자세한 분석 부재.
👍