본 논문은 언어 모델(LM) 관점에서 음성 향상(SE)을 연구합니다. 인식 품질 향상을 위해 직접 선호도 최적화(DPO)를 활용하는 새로운 방법을 제안합니다. 신경망 MOS 예측 모델인 UTMOS를 인간 평가의 대리 지표로 사용하여, 인식적으로 선호되는 출력으로 최적화를 유도합니다. 이는 깨끗한 음성 토큰의 가능성을 극대화하는 기존 LM 기반 SE 방법과 다릅니다. 기존 방법은 인간의 인식과 불일치하여 예측 오류가 낮더라도 품질이 저하될 수 있습니다. 2020 Deep Noise Suppression Challenge 테스트 세트에서의 실험 결과, 사전 훈련된 LM 기반 SE 모델에 DPO를 적용하면 다양한 음성 품질 지표에서 일관된 향상(최대 56% 향상)을 가져옴을 보여줍니다. 본 연구는 DPO를 SE에 최초로 적용하고, LM 기반 SE 훈련에 대리 인식 피드백을 통합한 최초의 연구이며, 인식과 일치하는 SE를 위한 유망한 방향을 제시합니다.