[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ReCode : Mise à jour des connaissances sur l'API de code grâce à l'apprentissage par renforcement

Created by
  • Haebom

Auteur

Haoze Wu, Yunzhi Yao, Wenhao Yu, Huajun Chen, Ningyu Zhang

Contour

Cet article aborde la difficulté de la génération de code des modèles de langage à grande échelle (LLM) à s'adapter aux mises à jour fréquentes des API de bibliothèques externes. En effet, les LLM s'appuient sur des informations d'API obsolètes dans leurs données d'apprentissage. Pour résoudre ce problème, nous proposons ReCode (apprentissage par renforcement basé sur des règles pour la mise à jour de code), un nouveau framework qui imite la façon dont les programmeurs s'adaptent aux changements d'API. ReCode entraîne les LLM à effectuer une migration de version en fonction des informations mises à jour, à l'aide d'un jeu de données d'environ 2 000 éléments. Nous introduisons également une métrique de similarité de chaînes modifiée en guise de récompense pour l'apprentissage par renforcement. Les résultats expérimentaux montrent que ReCode améliore significativement les performances de génération de code des LLM dans des scénarios d'API dynamiques, en particulier dans la tâche invisible CodeUpdateArena. En particulier, par rapport au réglage fin par apprentissage supervisé, ReCode a moins d'impact sur la capacité générale de génération de code des LLM. Nous appliquons ReCode à divers LLM et algorithmes d'apprentissage par renforcement (GRPO et DAPO) et obtenons des améliorations de performances constantes. En particulier, après entraînement, Qwen2.5-Coder-7B a surpassé le modèle de réglage fin des directives du code à 32 octets et le modèle d'inférence avec la même architecture. Le code est disponible dans https://github.com/zjunlp/ReCode .

Takeaways, Limitations_

Takeaways:
Présentation d'une méthode efficace pour améliorer les performances de génération de code dans l'environnement API dynamique de LLM
Le cadre ReCode basé sur l'apprentissage par renforcement a moins d'impact négatif sur la capacité générale de génération de code de LLM que l'apprentissage supervisé
Applicabilité à divers algorithmes d'apprentissage par renforcement et de LLM et vérification d'excellentes performances (performances exceptionnelles de Qwen2.5-Coder-7B)
Adaptabilité améliorée aux mises à jour d'API du monde réel
Limitations:
Il est nécessaire d'étendre la taille de l'ensemble de données car il est actuellement formé avec 2 000 éléments de données.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation entre différentes API et langages de programmation.
Il est nécessaire de revoir la stabilité à long terme et la maintenabilité de ReCode dans des environnements réels
Limites et potentiel d'amélioration de la métrique de similarité des chaînes utilisée
👍