본 논문은 실시간 사용에 비효율적인 확산 모델 기반 TTS의 단점을 해결하기 위해, 강화학습과 인간 피드백을 결합한 DLPO(Diffusion Loss-Guided Policy Optimization) 프레임워크를 제안합니다. DLPO는 기존 학습 손실을 보상 함수에 통합하여 생성 능력을 유지하면서 비효율성을 줄이고, 자연스러움 점수를 활용하여 보상 최적화를 확산 모델 구조와 정렬시켜 음성 품질을 향상시킵니다. WaveGrad 2 모델을 사용한 실험 결과, 객관적 지표(UTMOS 3.65, NISQA 4.02)와 주관적 평가 모두에서 상당한 개선을 보였으며, DLPO 음성을 선호하는 비율이 67%에 달했습니다. 이는 DLPO가 실시간 및 자원 제약 환경에서 효율적이고 고품질의 확산 기반 TTS를 가능하게 할 잠재력을 보여줍니다.