Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets
Created by
Haebom
作者
Chenlin Liu, Minghui Fang, Patrick Zhang, Wei Zhou, Jie Gao, Jiqing Han
概要
本稿では、言語モデルベースの音声合成(TTS)システムで発生する幻覚問題を解決するための新しい方法であるGoAT(GFlOwNet-guided distribution AlignmenT)を提案します。 GOATは、従来の方法とは異なり、過度のトレーニングリソースや推論の遅れなしに幻覚を軽減するポストトレーニングフレームワークです。モデルの不確実性と幻覚の間の強い相関関係を分析し、TTS生成を軌道フロー最適化問題に再構成することによって、改善されたサブ軌道バランス目標と鋭く調整された内部補償を目標分布として使用します。安定性と性能バランスのため、補償温度の低下と学習率の最適化を統合します。実験の結果、難しいテストケースで文字エラー率を50%以上減らし、不確実性を最大58%まで下げるなど、優れた一般化能力と効果を示しました。