Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article propose SE-Agent, un nouveau cadre d'optimisation du processus de résolution de problèmes (chemins d'interaction) des agents basé sur des modèles de langage à grande échelle (MLH). Nous soulignons les inefficacités des méthodes existantes, telles que MCTS, dues aux interdépendances et au manque de diversité de l'espace de recherche. SE-Agent optimise itérativement le processus de résolution de problèmes de manière auto-évolutive grâce à trois opérations : modification, recombinaison et amélioration des chemins existants. Cela lui permet d'explorer divers chemins de solution et d'atténuer l'impact des chemins inefficaces, améliorant ainsi les performances. Les résultats expérimentaux obtenus avec SWE-bench Verified démontrent que notre approche atteint des performances de pointe, avec des gains de performance allant jusqu'à 55 % sur cinq LLM robustes.
Takeaways, Limitations
•
Takeaways:
◦
Une nouvelle approche pour optimiser le processus de résolution de problèmes des agents basés sur LLM.
◦
ÉLargir l'espace de recherche et améliorer les performances grâce à un cadre auto-évolutif.
◦
Apprentissage efficace grâce à la réutilisation des itinéraires existants
◦
Praticité validée et excellentes performances obtenues (jusqu'à 55 % d'amélioration des performances) en résolvant des problèmes réels de GitHub.
◦
Améliorer l'accessibilité grâce à la divulgation de sources ouvertes
•
Limitations:
◦
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité du cadre proposé.
◦
ÉTant donné que les résultats de l’évaluation concernent un domaine spécifique (problème GitHub), la vérification de l’évolutivité vers d’autres domaines est requise.
◦
Augmentation potentielle du coût de calcul (calcul répété du processus d'auto-évolution)
◦
Dépendance à l'ensemble de données vérifié par SWE-bench