Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
ETF : un cadre de traçage d'entités pour la détection d'hallucinations dans le code Résumé
Created by
Haebom
Auteur
Kishan Maharaj, Vitobha Munigala, Srikanth G. Tamilselvam, Prince Kumar, Sayandeep Sen, Palani Kodeswaran, Abhijit Mishra, Pushpak Bhattacharyya
Contour
Cet article propose un nouvel ensemble de données, CodeSumEval (environ 10 000 échantillons), et un framework de suivi d'entités (ETF) pour résoudre le problème d'hallucinations qui survient lors de la synthèse de code à l'aide de modèles de langage à grande échelle (LLM). CodeSumEval est un ensemble de données dédié à la détection des hallucinations dans les résumés de code, tandis qu'ETF identifie les entités de code par analyse statique du programme, puis les mappe et les vérifie conformément à leur intention dans les résumés de code générés à l'aide des LLM. Les résultats expérimentaux montrent qu'ETF atteint un score F1 de 73 %, démontrant son efficacité dans l'évaluation de la précision des résumés de code et la localisation des erreurs dans ces résumés.
Takeaways, Limitations
•
Takeaways:
◦
Dans Code Summary, nous présentons un nouvel ensemble de données et un nouveau cadre pour résoudre le problème des hallucinations.
◦
Une nouvelle approche combinant l'analyse statique de programme et le LLM est proposée.
◦
L'efficacité des ETF a été prouvée expérimentalement grâce à un score F1 élevé (73%).
◦
Capacité à évaluer l’exactitude des résumés de code et à localiser les erreurs.
•
Limitations:
◦
La taille de l'ensemble de données CodeSumEval (10 000 échantillons) peut être relativement petite.
◦
La performance d’un ETF peut dépendre d’un langage de programmation, d’un style de code ou d’un LLM spécifique.
◦
Il peut y avoir des limites dans la détection de tous les types d’hallucinations.
◦
Une validation supplémentaire des performances de généralisation dans des environnements réels est nécessaire.