Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Atténuation des hallucinations dans les modèles TTS basés sur LM via l'alignement de la distribution à l'aide de GFlowNets

Created by
  • Haebom

Auteur

Chenlin Liu, Minghui Fang, Patrick Zhang, Wei Zhou, Jie Gao, Jiqing Han

Contour

Cet article propose GOAT (GFlOwNet-guided Distribution Alignment), une nouvelle méthode pour traiter les hallucinations dans les systèmes de synthèse vocale (TTS) basés sur des modèles de langage. Contrairement aux méthodes existantes, GOAT est un cadre post-apprentissage qui atténue les hallucinations sans ressources d'apprentissage excessives ni délais d'inférence. Nous analysons la forte corrélation entre l'incertitude du modèle et les hallucinations et recadrons la génération de TTS comme un problème d'optimisation du flux de trajectoire, en utilisant des objectifs d'équilibre de sous-trajectoire améliorés et des récompenses internes finement ajustées comme distribution cible. Nous intégrons la réduction de la température de récompense et l'optimisation du taux d'apprentissage pour équilibrer stabilité et performance. Les résultats expérimentaux démontrent une excellente généralisation et une excellente efficacité, réduisant les taux d'erreur de caractères de plus de 50 % et l'incertitude jusqu'à 58 % sur les cas de test difficiles.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour atténuer efficacement le problème d’hallucination des TTS basés sur un modèle de langage sans ressources excessives ni délai d’inférence.
Présentation d’une stratégie efficace d’atténuation des hallucinations basée sur l’analyse de l’incertitude du modèle.
Facilement applicable aux modèles existants grâce à un cadre post-formation.
Amélioration des performances et capacité de généralisation vérifiées expérimentalement.
Limitations:
Il est possible que l’efficacité de la méthode proposée soit limitée à des ensembles de données ou à des modèles spécifiques.
Une évaluation supplémentaire des performances de généralisation sur différents types d’hallucinations est nécessaire.
Une évaluation supplémentaire des performances dans des environnements d’application réels est requise.
👍