[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Vers une vérification formelle du code généré par LLM à partir d'invites en langage naturel

Created by
  • Haebom

Auteur

Conseiller Aaron, David Fu, Aryan Gupta, Chengxiao Wang, David Grove, Yu-Xiong Wang, Vikram Adve

Contour

Dans cet article, nous proposons Astrogator, un système qui introduit un langage de requête formel pour clarifier l'intention de l'utilisateur et vérifier l'exactitude du code généré afin de résoudre le problème d'erreur des modèles de langage à grande échelle (LLM) qui génèrent du code basé sur des descriptions en langage naturel. Astrogator cible le langage de programmation Ansible et se compose d'un langage de requête formel, d'une méthode de calcul qui représente le comportement du programme Ansible et d'un interpréteur symbolique utilisé pour la vérification. Lors d'un test comparatif de 21 tâches de génération de code, le code correct a été vérifié dans 83 % des cas et le code incorrect a été identifié dans 92 % des cas.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle approche pour améliorer la précision de la génération de code basée sur LLM.
La vérification formelle vous permet de vérifier si l’intention de l’utilisateur correspond au code généré.
Le potentiel de permettre la programmation en langage naturel même pour les utilisateurs ayant des connaissances en programmation limitées.
Efficacité accrue de la génération et de la vérification de code pour des langages spécifiques tels qu'Ansible.
Limitations:
Astrogator est spécifique au langage Ansible et peut avoir une extensibilité limitée à d'autres langages de programmation.
La taille de référence est relativement petite, ce qui nécessite des recherches supplémentaires sur la généralisation.
Il convient de prendre en compte la facilité d’utilisation et les coûts d’apprentissage des langages de requête formels.
Il se peut qu'il ne détecte pas parfaitement tous les types d'erreurs de code (précision de 83 %, précision de 92 % ne signifie pas une précision parfaite).
👍