Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

R-Stitch : assemblage dynamique de trajectoires pour un raisonnement efficace

Created by
  • Haebom

Auteur

Zhuokun Chen, Zeren Chen, Jiahao He, Mingkui Tan, Jianfei Cai, Bohan Zhuang

Contour

Cet article propose R-Stitch, une nouvelle méthode permettant de réduire le coût de calcul de l'inférence par chaîne de pensée (CoT). L'inférence CoT améliore la capacité de résolution de problèmes des modèles de langage à grande échelle (LLM), mais elle est coûteuse en calculs en raison de son décodage autorégressif des longues séquences de jetons. Les stratégies d'accélération existantes réduisent la longueur des séquences grâce à des mécanismes d'arrêt précoce ou de compensation de compression, ou améliorent la vitesse de décodage grâce au décodage prédictif utilisant des modèles à petite échelle. Cependant, le décodage prédictif a une accélération limitée lorsque la concordance entre les modèles à petite et à grande échelle est faible, et ne parvient pas à exploiter les avantages potentiels des modèles à petite échelle pour générer des inférences intermédiaires concises. R-Stitch est un framework de décodage hybride basé sur la confiance au niveau des jetons, qui bascule entre les modèles de langage à petite et à grande échelle (SLM) et les modèles de langage à grande échelle (LLM), utilisant les LLM uniquement lorsque la confiance du SLM tombe en dessous d'un seuil, préservant ainsi efficacité et précision. Il est indépendant du modèle, ne nécessite aucune formation et est compatible avec les pipelines de décodage standard. Les expériences de référence d'inférence mathématique montrent que R-Stitch réduit la latence d'inférence jusqu'à 85 % avec une dégradation minimale de la précision.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour réduire efficacement le coût de calcul de l’inférence CoT.
Il a été démontré expérimentalement que la latence d’inférence peut être réduite jusqu’à 85 % sans pratiquement aucune dégradation de la précision.
Il est indépendant du modèle, ne nécessite aucune formation et est compatible avec les pipelines de décodage standard, ce qui le rend très pratique.
Limitations:
Des recherches supplémentaires pourraient être nécessaires pour établir le seuil de fiabilité du SLM.
Une évaluation plus approfondie des performances de généralisation pour différents types de problèmes et de modèles peut être nécessaire.
Si la différence de performances entre SLM et LLM est importante, l’amélioration des performances peut être limitée.
👍