Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SynapseRoute: un marco de conmutación de ruta automática en un modelo de lenguaje grande de estado dual

Created by
  • Haebom

Autor

Wencheng Zhang, Shiqin Qiao, Lingjie Luo, Yinfeng Li, Chuanyang Zheng, Qian Xu, Meng Li, Yong Gui, Yijun He, Jianing Qiu, Jindong Hong, Jiankai Sun

Describir

Este artículo enfatiza que en aplicaciones prácticas de modelos de lenguaje a gran escala (LLMs), el modelo apropiado debe seleccionarse considerando no solo el rendimiento sino también el costo operativo. En particular, la aparición de modelos con capacidades de inferencia ha aumentado aún más la brecha de costo entre los modos "pensamiento" (inferencia de alto costo) y "no pensamiento" (rápido y de bajo costo). Los resultados de nuestro estudio muestran que aproximadamente el 58% de las preguntas médicas pueden responderse con precisión solo con el modo "no pensamiento" sin el proceso de inferencia de alto costo. Esto demuestra la dicotomía de la complejidad del problema y sugiere que enrutar dinámicamente las consultas a los modos apropiados según la complejidad puede optimizar la precisión, la rentabilidad y la experiencia general del usuario. Con base en esto, proponemos SynapseRoute, un marco de enrutamiento dinámico basado en aprendizaje automático que asigna inteligentemente las consultas de entrada a los modos "pensamiento" o "no pensamiento". Los resultados experimentales en múltiples conjuntos de datos médicos muestran que SynapseRoute mejora la precisión general (0,8390 frente a 0,8272), a la vez que reduce el tiempo de inferencia en un 36,8 % y el consumo de tokens en un 39,66 %, en comparación con el uso exclusivo del modo de pensamiento. Además, demostramos mediante análisis cualitativo que una inferencia excesiva en consultas simples puede provocar retrasos innecesarios y una degradación de la precisión, y nuestro enrutamiento adaptativo evita estos problemas. Finalmente, presentamos el índice Precisión-Inferencia-Token (AIT) para evaluar exhaustivamente la relación entre precisión, retraso y coste de tokens.

Takeaways, Limitations

Takeaways:
Sugiere el potencial de reducir eficientemente los costos operativos de LLM al demostrar que una parte significativa de las preguntas médicas (aproximadamente el 58%) se pueden manejar en un modo de bajo costo.
Verificación experimental de los efectos de mejora de la precisión y reducción de costos a través de SynapseRoute, un marco de enrutamiento dinámico basado en la complejidad.
Señale el problema de la inferencia excesiva y sugiera la necesidad y utilidad del enrutamiento adaptativo.
Proponemos un índice AIT que considera exhaustivamente la precisión, la latencia y el costo del token.
Limitations:
El rendimiento de SynapseRoute puede depender del conjunto de datos médicos utilizado, y su generalización a otros dominios o conjuntos de datos requiere más estudios.
Se necesita una revisión más profunda del alcance y la generalización del índice AIT.
Falta de análisis de los recursos y la complejidad requerida para aprender e implementar SynapseRoute.
👍