Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets

Created by
  • Haebom

作者

Chenlin Liu, Minghui Fang, Patrick Zhang, Wei Zhou, Jie Gao, Jiqing Han

概要

本稿では、言語モデルベースの音声合成(TTS)システムで発生する幻覚問題を解決するための新しい方法であるGoAT(GFlOwNet-guided distribution AlignmenT)を提案します。 GOATは、従来の方法とは異なり、過度のトレーニングリソースや推論の遅れなしに幻覚を軽減するポストトレーニングフレームワークです。モデルの不確実性と幻覚の間の強い相関関係を分析し、TTS生成を軌道フロー最適化問題に再構成することによって、改善されたサブ軌道バランス目標と鋭く調整された内部補償を目標分布として使用します。安定性と性能バランスのため、補償温度の低下と学習率の最適化を統合します。実験の結果、難しいテストケースで文字エラー率を50%以上減らし、不確実性を最大58%まで下げるなど、優れた一般化能力と効果を示しました。

Takeaways、Limitations

Takeaways:
過剰なリソースや推論の遅れなしに言語モデルベースのTTSの幻覚問題を効果的に軽減する新しい方法を提示します。
モデル不確実性解析に基づく効果的なサイケデリック緩和戦略の提示
ポストトレーニングフレームワークを使用して既存のモデルに簡単に適用できます。
高い性能向上と一般化能力を実験的に検証。
Limitations:
提案された方法の効果が特定のデータセットまたはモデルに限定される可能性がある。
さまざまなサイケデリックタイプの一般化性能評価が追加で必要です。
実際のアプリケーション環境でのパフォーマンス評価がさらに必要です。
👍