Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets
Created by
Haebom
저자
Chenlin Liu, Minghui Fang, Patrick Zhang, Wei Zhou, Jie Gao, Jiqing Han
개요
본 논문은 언어 모델 기반 음성 합성(TTS) 시스템에서 발생하는 환각(hallucination) 문제를 해결하기 위한 새로운 방법인 GOAT(GFlOwNet-guided distribution AlignmenT)를 제안합니다. GOAT는 기존 방법들과 달리 과도한 훈련 자원이나 추론 지연 없이 환각을 완화하는 사후 훈련 프레임워크입니다. 모델의 불확실성과 환각 간의 강한 상관관계를 분석하고, TTS 생성을 궤적 흐름 최적화 문제로 재구성하여 향상된 하위 궤적 균형 목표와 예리하게 조정된 내부 보상을 목표 분포로 사용합니다. 안정성과 성능 균형을 위해 보상 온도 감소와 학습률 최적화를 통합합니다. 실험 결과, 어려운 테스트 케이스에서 문자 오류율을 50% 이상 줄이고 불확실성을 최대 58%까지 낮추는 등 우수한 일반화 능력과 효과를 보였습니다.
시사점, 한계점
•
시사점:
◦
과도한 자원이나 추론 지연 없이 언어 모델 기반 TTS의 환각 문제를 효과적으로 완화하는 새로운 방법 제시.