Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets

Created by
  • Haebom

저자

Chenlin Liu, Minghui Fang, Patrick Zhang, Wei Zhou, Jie Gao, Jiqing Han

개요

본 논문은 언어 모델 기반 음성 합성(TTS) 시스템에서 발생하는 환각(hallucination) 문제를 해결하기 위한 새로운 방법인 GOAT(GFlOwNet-guided distribution AlignmenT)를 제안합니다. GOAT는 기존 방법들과 달리 과도한 훈련 자원이나 추론 지연 없이 환각을 완화하는 사후 훈련 프레임워크입니다. 모델의 불확실성과 환각 간의 강한 상관관계를 분석하고, TTS 생성을 궤적 흐름 최적화 문제로 재구성하여 향상된 하위 궤적 균형 목표와 예리하게 조정된 내부 보상을 목표 분포로 사용합니다. 안정성과 성능 균형을 위해 보상 온도 감소와 학습률 최적화를 통합합니다. 실험 결과, 어려운 테스트 케이스에서 문자 오류율을 50% 이상 줄이고 불확실성을 최대 58%까지 낮추는 등 우수한 일반화 능력과 효과를 보였습니다.

시사점, 한계점

시사점:
과도한 자원이나 추론 지연 없이 언어 모델 기반 TTS의 환각 문제를 효과적으로 완화하는 새로운 방법 제시.
모델 불확실성 분석을 기반으로 한 효과적인 환각 완화 전략 제시.
사후 훈련 프레임워크를 통해 기존 모델에 손쉽게 적용 가능.
높은 성능 향상과 일반화 능력을 실험적으로 검증.
한계점:
제안된 방법의 효과가 특정 데이터셋이나 모델에 국한될 가능성 존재.
다양한 환각 유형에 대한 일반화 성능 평가가 추가적으로 필요.
실제 응용 환경에서의 성능 평가가 추가적으로 필요.
👍