[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SWE-MERA : une référence dynamique pour l'évaluation agentique de grands modèles de langage dans les tâches d'ingénierie logicielle

Created by
  • Haebom

Auteur

Pavel Adamenko, Mikhaïl Ivanov, Aidar Valeev, Rodion Levichev, Pavel Zadorozhny, Ivan Lopatin, Dmitry Babayev, Alena Fenogenova, Valentin Malykh

Contour

Cet article met en évidence les points faibles des benchmarks existants utilisés en génie logiciel, notamment le jeu de données SWE-bench, et propose un nouveau benchmark, SWE-MERA, pour résoudre ce problème. SWE-bench souligne que le problème de pollution des données (fuite directe de solutions et cas de test inappropriés) est grave et réduit la fiabilité. SWE-MERA vise à résoudre ce problème en collectant automatiquement les problèmes GitHub réels et en effectuant une vérification qualité rigoureuse. Il fournit actuellement environ 10 000 tâches potentielles et 300 échantillons, et le résultat de l'évaluation réalisée avec l'agent de codage Aider montre clairement la différence de performance des LLM de pointe. Les performances de plus d'une douzaine de LLM de pointe sont évaluées sur des tâches collectées entre septembre 2024 et juin 2025.

Takeaways, Limitations_

Takeaways:
Nous révélons des problèmes de contamination des données dans l'ensemble de données SWE-bench existant et suggérons la nécessité d'un nouveau benchmark.
Nous proposons un benchmark pratique SWE-MERA en utilisant de vrais problèmes GitHub et construisons un pipeline automatisé de collecte de données et de vérification de la qualité.
Nous comparons et évaluons les performances de divers LLM de pointe et démontrons la différenciation du modèle.
Contribuer à l’avancement du LLM en génie logiciel grâce à des repères dynamiques continuellement mis à jour.
Limitations:
Le benchmark est limité en échelle, avec seulement 300 échantillons sur 10 000 tâches potentielles actuellement disponibles.
Il se peut qu'il manque des détails spécifiques sur le processus d'assurance qualité de SWE-MERA.
Les résultats de l’évaluation peuvent dépendre d’un agent de codage spécifique.
ÉTant donné que cet ensemble de données est basé sur des problèmes GitHub, il peut être biaisé en faveur de certains types de problèmes d’ingénierie logicielle.
👍