Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Aligning Generative Speech Enhancement with Human Preferences via Direct Preference Optimization

Created by
  • Haebom

저자

Haoyang Li, Nana Hou, Yuchen Hu, Jixun Yao, Sabato Marco Siniscalchi, Eng Siong Chng

개요

본 논문은 언어 모델(LM) 관점에서 음성 향상(SE)을 연구합니다. 인식 품질 향상을 위해 직접 선호도 최적화(DPO)를 활용하는 새로운 방법을 제안합니다. 신경망 MOS 예측 모델인 UTMOS를 인간 평가의 대리 지표로 사용하여, 인식적으로 선호되는 출력으로 최적화를 유도합니다. 이는 깨끗한 음성 토큰의 가능성을 극대화하는 기존 LM 기반 SE 방법과 다릅니다. 기존 방법은 인간의 인식과 불일치하여 예측 오류가 낮더라도 품질이 저하될 수 있습니다. 2020 Deep Noise Suppression Challenge 테스트 세트에서의 실험 결과, 사전 훈련된 LM 기반 SE 모델에 DPO를 적용하면 다양한 음성 품질 지표에서 일관된 향상(최대 56% 향상)을 가져옴을 보여줍니다. 본 연구는 DPO를 SE에 최초로 적용하고, LM 기반 SE 훈련에 대리 인식 피드백을 통합한 최초의 연구이며, 인식과 일치하는 SE를 위한 유망한 방향을 제시합니다.

시사점, 한계점

시사점:
DPO를 활용하여 LM 기반 음성 향상 모델의 인식 품질을 향상시킬 수 있음을 보여줌.
UTMOS와 같은 신경망 MOS 예측 모델을 활용하여 인간의 주관적 평가를 효과적으로 반영할 수 있음을 제시.
기존의 likelihood maximization 기반 방법의 한계를 극복하고, 인간의 인식과 더욱 부합하는 음성 향상 결과를 얻을 수 있음.
다양한 음성 품질 지표에서 일관된 성능 향상을 보임 (최대 56% 향상).
LM 기반 음성 향상 연구에 새로운 방향을 제시.
한계점:
UTMOS와 같은 대리 지표가 항상 인간의 인식과 완벽하게 일치하지 않을 수 있음.
DPO의 계산 비용이 높을 수 있음.
특정 데이터셋과 모델에 국한된 결과일 가능성.
다양한 노이즈 환경 및 언어에 대한 일반화 성능 검증 필요.
👍