Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Programmer un jeu d'inéquivalence sémantique avec de grands modèles de langage

Created by
  • Haebom

Auteur

Antonio Valerio Miceli-Barone, Vaishak Belle, Ali Payani

Contour

Cet article présente une nouvelle méthode pour améliorer la capacité d'inférence de code complexe des modèles de langage à grande échelle (MLL). Si les LLM sont performants pour les tâches de codage courantes, ils peuvent échouer pour les tâches complexes nécessitant des inférences non triviales sur la sémantique du programme. Pour répondre à ce problème, cette étude explore une méthode de génération synthétique de données d'entraînement d'inférence de code basée sur le jeu d'inégalité sémantique (SInQ). Un agent générateur génère des variantes de programme sémantiquement distinctes, dérivées d'un ensemble de données de tâches de programmation réelles, et un agent d'évaluation identifie les exemples d'entrée qui entraînent des différences de comportement entre le programme d'origine et les variantes générées. Les deux agents s'entraînent mutuellement de manière semi-adversative, et nous démontrons que cette configuration peut théoriquement s'améliorer à l'infini grâce à l'auto-jeu, en supposant des ressources de calcul infinies. Nous validons l'efficacité de la méthode proposée par des expérimentations sur divers benchmarks de génération et de compréhension de code, notamment la détection de vulnérabilités multilingues et le benchmark d'échange d'identifiants intégré à Python. Bien qu'entraînée uniquement sur du code Python, la méthode proposée améliore la détection des vulnérabilités en code C/C++ et permet des gains de performances significatifs sur le benchmark d'échange d'identifiants intégré à Python, un benchmark où les LLM existants peinent. Nous avons rendu public le code nécessaire à la reproduction de l'expérience et les données synthétiques générées, permettant ainsi à d'autres chercheurs d'affiner le LLM.

Takeaways, Limitations_

Takeaways:
Nous présentons la possibilité d'améliorer la capacité de raisonnement de code complexe de LLM grâce à une méthode de génération de données synthétiques basée sur des jeux d'inégalités sémantiques (SInQ).
Il démontre le potentiel d’amélioration des performances sur les problèmes d’inférence de codes multilingues et divers, même avec des données limitées.
Contribuer à l’avancement de la recherche LLM par la divulgation de données synthétiques générées.
Présenter la possibilité d’une amélioration continue des performances basée sur le jeu personnel.
Limitations:
Il est nécessaire d’examiner l’applicabilité des preuves théoriques qui supposent des ressources informatiques infinies aux environnements du monde réel.
Des recherches supplémentaires sont nécessaires sur la qualité et la diversité des données synthétiques générées.
Une validation supplémentaire est nécessaire pour déterminer si les améliorations de performances pour des benchmarks spécifiques peuvent être généralisées à tous les autres types de problèmes d’inférence de code.
Il est nécessaire d’évaluer les performances de généralisation pour des problèmes d’inférence de code complexes et divers du monde réel.
👍