Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article présente le framework ZeroTIR, qui exécute un raisonnement intégré aux outils (TIR) en utilisant l'apprentissage par renforcement (RL) à partir de récompenses basées sur les résultats. ZeroTIR entraîne un modèle de langage à grande échelle (LLM) pré-entraîné à générer et exécuter spontanément du code Python pour des problèmes mathématiques, sans exemples d'apprentissage supervisé d'utilisation d'outils. Les résultats expérimentaux montrent une forte corrélation positive entre l'augmentation des étapes d'apprentissage RL et la fréquence d'exécution spontanée du code, la longueur moyenne des réponses et la précision de la tâche finale. Cela démontre quantitativement la relation entre l'effort de calcul investi dans l'entraînement et l'émergence de stratégies efficaces de raisonnement augmenté par les outils. Nous démontrons également que ZeroTIR surpasse significativement les modèles de référence ZeroRL sans outils existants sur les benchmarks mathématiques. En fournissant un cadre robuste et des benchmarks reproductibles, nous contribuons aux recherches futures.
Takeaways, Limitations
•
Takeaways:
◦
Nous démontrons que la récompense basée sur les résultats RL peut permettre aux LLM d'utiliser volontairement des outils externes (exécution de code Python) pour améliorer leurs capacités de raisonnement mathématique.
◦
Nous approfondissons notre compréhension du processus d’apprentissage des outils en découvrant des corrélations quantitatives entre les étapes de formation RL et la fréquence d’exécution du code, la longueur de la réponse et la précision.
◦
Le cadre ZeroTIR contribue à la recherche future sur l’inférence basée sur des outils en fournissant des repères reproductibles.
◦
Nous présentons une nouvelle méthodologie pour améliorer l’efficacité de l’apprentissage de l’utilisation des outils.
•
Limitations:
◦
Actuellement, elle est limitée aux problèmes mathématiques et sa généralisabilité à d’autres types de problèmes nécessite des recherches plus approfondies.
◦
Les performances peuvent varier en fonction du type et de la portée de l’indice de référence utilisé.
◦
Il faut tenir compte de la stabilité et de la sécurité de l’environnement d’exécution du code.
◦
Il peut y avoir un manque d’interprétabilité pour les processus de raisonnement complexes.