Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Agent SE : Optimisation de trajectoire d'auto-évolution dans le raisonnement multi-étapes avec des agents basés sur LLM

Created by
  • Haebom

Auteur

Jiaye Lin, Yifu Guo, Yuzhen Han, Sen Hu, Ziyi Ni, Licheng Wang, Mingguang Chen, Daxin Jiang, Binxing Jiao, Chen Hu, Huacan Wang

Contour

Cet article propose SE-Agent, un nouveau cadre d'optimisation du processus de résolution de problèmes (chemins d'interaction) des agents basé sur des modèles de langage à grande échelle (MLH). Nous soulignons les inefficacités des méthodes existantes, telles que MCTS, dues aux interdépendances et au manque de diversité de l'espace de recherche. SE-Agent optimise itérativement le processus de résolution de problèmes de manière auto-évolutive grâce à trois opérations : modification, recombinaison et amélioration des chemins existants. Cela lui permet d'explorer divers chemins de solution et d'atténuer l'impact des chemins inefficaces, améliorant ainsi les performances. Les résultats expérimentaux obtenus avec SWE-bench Verified démontrent que notre approche atteint des performances de pointe, avec des gains de performance allant jusqu'à 55 % sur cinq LLM robustes.

Takeaways, Limitations

Takeaways:
Une nouvelle approche pour optimiser le processus de résolution de problèmes des agents basés sur LLM.
ÉLargir l'espace de recherche et améliorer les performances grâce à un cadre auto-évolutif.
Apprentissage efficace grâce à la réutilisation des itinéraires existants
Praticité validée et excellentes performances obtenues (jusqu'à 55 % d'amélioration des performances) en résolvant des problèmes réels de GitHub.
Améliorer l'accessibilité grâce à la divulgation de sources ouvertes
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité du cadre proposé.
ÉTant donné que les résultats de l’évaluation concernent un domaine spécifique (problème GitHub), la vérification de l’évolutivité vers d’autres domaines est requise.
Augmentation potentielle du coût de calcul (calcul répété du processus d'auto-évolution)
Dépendance à l'ensemble de données vérifié par SWE-bench
👍