Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Génération de codes multi-tours grâce à des récompenses en une seule étape
Created by
Haebom
Auteur
Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M. Rush, Wenting Zhao, Sanjiban Choudhury
Contour
Cet article aborde le problème de la génération de code à partir de retours d'exécution multi-tours. Les méthodes existantes génèrent du code sans retour d'exécution ou utilisent un apprentissage par renforcement hiérarchique complexe pour optimiser les récompenses multi-tours. Dans cet article, nous proposons $\mu$Code, une approche simple mais évolutive pour résoudre le problème de génération de code multi-tours en utilisant uniquement des récompenses à un seul tour. L'idée principale est que la génération de code est un processus de décision de Markov (MDP) récupérable à un seul tour, capable de récupérer le code correct à partir d'états intermédiaires en une seule étape. $\mu$Code entraîne de manière itérative un générateur fournissant des solutions de code conditionnées par un retour d'exécution multi-tours, ainsi qu'un vérificateur évaluant le code nouvellement généré. Les résultats expérimentaux montrent que la méthode proposée améliore significativement les performances par rapport aux modèles de référence les plus récents. Nous fournissons également une analyse des choix de conception du modèle et de la politique de récompense, et démontrons l'efficacité de $\mu$Code pour exploiter le retour d'exécution. Le code est disponible à l'adresse https://github.com/portal-cornell/muCode .
Takeaways : Une nouvelle approche pour résoudre efficacement les problèmes de génération de code à plusieurs tours en utilisant uniquement des récompenses à une seule étape. Performances améliorées par rapport aux modèles de base de pointe. Présentation d'une méthodologie hautement évolutive. Présentation d'une méthode pour exploiter efficacement le retour d'information sur l'exécution. Publication du code source ouvert.
•
Limitations: Des recherches supplémentaires sont nécessaires pour déterminer si l'hypothèse MDP récupérable en une seule étape de $\mu$Code est applicable à tous les problèmes de génération de code. Une évaluation des performances de généralisation pour divers langages de programmation et complexités de code est nécessaire. Des analyses et améliorations supplémentaires de la conception des modèles et des politiques de récompense sont nécessaires.