Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mitigación de alucinaciones en modelos TTS basados ​​en LM mediante la alineación de distribución con GFlowNets

Created by
  • Haebom

Autor

Chenlin Liu, Minghui Fang, Patrick Zhang, Wei Zhou, Jie Gao, Jiqing Han

Describir

Este artículo propone GOAT (Alineación de Distribución Guiada por GFlOwNet), un novedoso método para abordar las alucinaciones en sistemas de texto a voz (TTS) basados ​​en modelos lingüísticos. A diferencia de los métodos existentes, GOAT es un marco de trabajo posterior al entrenamiento que mitiga las alucinaciones sin excesivos recursos de entrenamiento ni retrasos en la inferencia. Analizamos la fuerte correlación entre la incertidumbre del modelo y las alucinaciones, y replanteamos la generación de TTS como un problema de optimización del flujo de trayectorias, empleando objetivos de equilibrio de subtrayectorias mejorados y recompensas internas ajustadas con precisión como distribución objetivo. Integramos la reducción de la temperatura de recompensa y la optimización de la tasa de aprendizaje para equilibrar la estabilidad y el rendimiento. Los resultados experimentales demuestran una excelente generalización y eficacia, reduciendo las tasas de error de caracteres en más del 50 % y la incertidumbre hasta en un 58 % en casos de prueba complejos.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para aliviar eficazmente el problema de las alucinaciones en las TTS basadas en modelos de lenguaje sin necesidad de recursos excesivos ni retrasos en la inferencia.
Presentación de una estrategia eficaz de mitigación de alucinaciones basada en el análisis de incertidumbre del modelo.
Se aplica fácilmente a modelos existentes a través de un marco de post-entrenamiento.
Mejora del alto rendimiento y capacidad de generalización verificadas experimentalmente.
Limitations:
Existe la posibilidad de que la eficacia del método propuesto se limite a conjuntos de datos o modelos específicos.
Se necesita una evaluación adicional del rendimiento de generalización en diferentes tipos de alucinaciones.
Se requiere una evaluación del rendimiento adicional en entornos de aplicación reales.
👍