Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SynapseRoute : un framework de commutation automatique d'itinéraires sur un modèle de langage à double état

Created by
  • Haebom

Auteur

Wencheng Zhang, Shiqin Qiao, Lingjie Luo, Yinfeng Li, Chuanyang Zheng, Qian Xu, Meng Li, Yong Gui, Yijun He, Jianing Qiu, Jindong Hong, Jiankai Sun

Contour

Cet article souligne que, dans les applications pratiques des modèles de langage à grande échelle (MLH), le choix du modèle approprié doit tenir compte non seulement des performances, mais aussi des coûts opérationnels. En particulier, l'émergence de modèles dotés de capacités d'inférence a encore accru l'écart de coût entre les modes « pensant » (inférence à coût élevé) et « non-pensant » (rapide et économique). Les résultats de notre étude montrent qu'environ 58 % des questions médicales peuvent être répondues avec précision par le seul mode « non-pensant », sans recourir à l'inférence à coût élevé. Cela illustre la dichotomie de la complexité des problèmes et suggère que le routage dynamique des requêtes vers les modes appropriés en fonction de la complexité peut optimiser la précision, la rentabilité et l'expérience utilisateur globale. Sur cette base, nous proposons SynapseRoute, un framework de routage dynamique basé sur l'apprentissage automatique qui attribue intelligemment les requêtes d'entrée aux modes « pensant » ou « non-pensant ». Les résultats expérimentaux obtenus sur plusieurs ensembles de données médicales montrent que SynapseRoute améliore la précision globale (0,8390 contre 0,8272) tout en réduisant le temps d'inférence de 36,8 % et la consommation de jetons de 39,66 % par rapport à l'utilisation du mode « réflexion » seul. De plus, nous démontrons, par une analyse qualitative, qu'une inférence excessive dans des requêtes simples peut entraîner des retards inutiles et une dégradation de la précision, et notre routage adaptatif évite ces problèmes. Enfin, nous présentons l'indice Précision-Inférence-Jeton (AIT) afin d'évaluer de manière exhaustive le compromis entre précision, délai et coût des jetons.

Takeaways, Limitations

Takeaways:
Suggère le potentiel de réduire efficacement les coûts d’exploitation du LLM en démontrant qu’une partie importante des questions médicales (environ 58 %) peuvent être traitées de manière peu coûteuse.
Vérification expérimentale des effets d'amélioration de la précision et de réduction des coûts grâce à SynapseRoute, un cadre de routage dynamique basé sur la complexité.
Soulignez le problème de l’inférence excessive et suggérez la nécessité et l’utilité du routage adaptatif.
Nous proposons un indice AIT qui prend en compte de manière exhaustive la précision, la latence et le coût des jetons.
Limitations:
Les performances de SynapseRoute peuvent dépendre de l’ensemble de données médicales utilisé, et sa généralisabilité à d’autres domaines ou ensembles de données nécessite une étude plus approfondie.
Un examen plus approfondi est nécessaire sur la portée et la généralisabilité de l’indice AIT.
Manque d’analyse des ressources et de la complexité nécessaires pour apprendre et mettre en œuvre SynapseRoute.
👍