Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

FLM-Audio: Natural Monologues mejora los chatbots nativos full-duplex mediante entrenamiento dual

Created by
  • Haebom

Autor

Yiqun Yao, Xiang Li, Xin Jiang, Xuezhi Fang, Naitong Yu, Wenjia Ma, Aixin Sun, Yequan Wang

Describir

Este artículo presenta una solución nativa que fusiona múltiples canales en cada paso de tiempo para lograr una baja latencia en un modelo conversacional full-duplex. Para abordar el problema de que los métodos de alineación a nivel de palabra existentes degradan el rendimiento del modelado lingüístico, introducimos "monólogos naturales", que consisten en oraciones continuas y pausas que imitan el comportamiento conversacional humano. Para lograr la alineación semántica entre los monólogos naturales y el audio, desarrollamos un método de aprendizaje dual que alterna las posiciones de los monólogos para aprender el idioma. Posteriormente, desarrollamos este método de aprendizaje dual, FLM-Audio, un chatbot conversacional full-duplex con parámetros 7B. Los resultados experimentales demuestran que FLM-Audio ofrece una calidad de respuesta y una experiencia conversacional superiores a las de los modelos existentes, a la vez que requiere una cantidad significativamente menor de datos de entrenamiento.

Takeaways, Limitations

Takeaways:
Demostramos la viabilidad de lograr simultáneamente baja latencia y alto rendimiento de modelado de lenguaje en un modelo conversacional nativo full-duplex.
Se presenta un método para aprender un modelo de conversación full-duplex eficiente utilizando monólogos naturales y métodos de aprendizaje dual.
Presentando la posibilidad de desarrollar modelos livianos que logren un excelente desempeño incluso con pequeños datos de entrenamiento.
Limitations:
Es necesaria una verificación adicional del rendimiento de generalización del método propuesto.
Se necesitan estudios de aplicabilidad para varios tipos de conversaciones y lenguajes.
Es necesario analizar el consumo de recursos computacionales del modelo FLM-Audio con parámetros 7B.
👍