Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Pilotage d'activation pour la compression de la chaîne de pensée

Created by
  • Haebom

Auteur

Seyedarmin Azizi, Erfan Baghaei Potraghloo, Massoud Pedram

Contour

Dans cet article, nous présentons la compression pilotée par activation (ASC), une nouvelle méthode permettant de résoudre le problème des chaînes de pensée excessives (CdP) dans le processus d'inférence des modèles linguistiques à grande échelle (MLH). L'ASC compresse le processus d'inférence en extrayant et en injectant un « vecteur de pilotage » en exploitant la différence entre l'inférence mathématique concise et l'inférence verbeuse basée sur l'anglais dans l'espace d'activation du modèle. Cette technique modifie directement la représentation cachée au moment de l'inférence, sans réentraînement, pour réduire la longueur de la CdP. Grâce à une analyse théorique utilisant des contraintes à divergence KL, nous montrons qu'elle ajuste la force de pilotage et permet une réduction de la longueur de la CdP allant jusqu'à 67,43 % sur les jeux de données MATH500 et GSM8K, tout en maintenant la précision. En particulier, elle atteint une accélération moyenne de 2,73x sur le modèle 8B, ce qui suggère qu'il s'agit d'un outil pratique et efficace pour les déploiements de LLM avec capacités d'inférence dans des environnements sensibles à la latence et aux coûts.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode (ASC) est présentée pour résoudre efficacement le problème de surexplication qui se produit dans le processus d'inférence du LLM.
Il peut améliorer la vitesse d’inférence et réduire la consommation d’énergie sans recyclage.
L’efficacité de l’ASC est soutenue par une analyse théorique utilisant des contraintes limitées par la divergence KL.
Haute efficacité et précision vérifiées sur les ensembles de données MATH500 et GSM8K.
Augmente la praticité du déploiement LLM dans les environnements sensibles à la latence ou aux coûts.
Limitations:
Les performances de l'ASC peuvent dépendre de la qualité des données de formation (exemples détaillés et concis) utilisées.
Des expériences supplémentaires sur différentes architectures et ensembles de données LLM sont nécessaires.
Des recherches supplémentaires sont nécessaires pour déterminer si la méthode actuellement présentée est efficace pour tous les types de problèmes d’inférence.
Des recherches supplémentaires sont nécessaires sur la généralisabilité du processus d’extraction et d’injection du vecteur de direction.
👍