Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Comprendre le raisonnement intégré aux outils

Created by
  • Haebom

Auteur

Heng Lin, Zhongwen Xu

Contour

Cet article explore les raisons pour lesquelles l'inférence intégrée à l'outil (TIR) ​​améliore les performances des modèles de langage à grande échelle (LLM). Si les LLM intégrés à des outils tels que les interpréteurs de code Python sont très prometteurs, une théorie raisonnée expliquant l'efficacité de ce paradigme fait défaut. Cette étude est la première à démontrer formellement que TIR étend fondamentalement les capacités des LLM. En étendant rigoureusement le support empirique et faisable du modèle, l'outil surmonte les limitations de performance des modèles purement textuels en permettant des stratégies de résolution de problèmes qui seraient autrement impossibles ou fastidieuses. Pour guider le comportement du modèle sans compromettre la stabilité et les performances de l'apprentissage, cet article présente Advantage Shaping Policy Optimization (ASPO), un nouvel algorithme qui modifie directement la fonction d'avantage pour guider les actions politiques. Nous menons des expériences approfondies sur des benchmarks mathématiques complexes en utilisant l'interpréteur Python comme outil externe. Nos expériences démontrent que le modèle TIR surpasse clairement le modèle purement textuel en termes de pass@k. Il est important de noter que cet avantage s'étend au-delà des problèmes à forte intensité de calcul pour inclure des problèmes nécessitant une compréhension abstraite significative. Nous identifions également de nouveaux schémas cognitifs qui illustrent comment le modèle utilise les outils pour penser. Enfin, nous signalons une amélioration du comportement d'utilisation des outils grâce à l'invocation initiale du code et à des interactions nettement plus interactives avec ASPO. Globalement, cette étude fournit une explication fondamentale du succès de TIR, en déplaçant l'accent du simple fait que l'outil fonctionne vers la raison et la manière dont il permet des inférences plus puissantes.

Takeaways, Limitations_

Takeaways:
Nous fournissons la première preuve formelle de l'impact de l'inférence intégrée à l'outil (TIR) ​​sur l'amélioration des performances du LLM.
Démontre le potentiel d'expansion du soutien expérientiel et exploitable du LLM via TIR.
Améliorez efficacement le comportement d'utilisation des outils sans compromettre la stabilité ou les performances du modèle avec un nouvel algorithme, ASPO.
Vérification expérimentale de la supériorité du modèle TIR sur des repères mathématiques.
Les modèles utilisent des outils pour découvrir de nouveaux modèles cognitifs qui résolvent les problèmes.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de l’algorithme ASPO et son applicabilité à d’autres types d’outils.
Limitations de généralisabilité dues à la spécificité des repères mathématiques utilisés.
D’autres expériences sont nécessaires sur des domaines problématiques plus divers et plus complexes.
Une analyse plus approfondie du mécanisme d’apprentissage de la stratégie d’utilisation des outils est nécessaire.
👍