Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Le piège de la complexité : le masquage d'observation simple est aussi efficace que le résumé LLM pour la gestion du contexte des agents

Created by
  • Haebom

Auteur

Tobias Lindenbauer, Igor Slinko, Ludwig Felder, Egor Bogomolov, Yaroslav Zharov

Contour

Cet article présente les résultats d'une analyse comparative des stratégies de gestion de l'historique des contextes longs dans un agent d'ingénierie logicielle (SWE) basé sur un modèle de langage à grande échelle (LLM). Nous avons comparé les méthodes de résumé existantes basées sur le LLM, telles qu'OpenHands et Cursor, avec le masquage par observation, une méthode qui ignore simplement les observations précédentes, en utilisant diverses configurations de modèle sur l'ensemble de données vérifiées par SWE-bench. Nous avons constaté que la stratégie de masquage par observation obtenait des taux de résolution de problèmes similaires ou légèrement supérieurs à ceux des méthodes de résumé basées sur le LLM, tout en réduisant le coût de moitié. Par exemple, sur le modèle Qwen3-Coder 480B, le masquage par observation a amélioré le taux de résolution de problèmes de 53,8 % à 54,8 %, obtenant des performances similaires à celles du résumé LLM à un coût inférieur. Cette étude suggère que, au moins dans les environnements SWE-agent et SWE-bench Verified, la gestion du contexte la plus efficace et efficiente pourrait être l'approche la plus simple. Pour des raisons de reproductibilité, nous mettons le code et les données à disposition.

Takeaways, Limitations_

Takeaways:
Nous montrons qu'une simple stratégie de masquage d'observation peut être plus efficace et efficiente que des techniques de résumé complexes dans les agents SWE basés sur LLM.
Nous présentons une stratégie pratique de gestion du contexte qui peut simultanément permettre une réduction des coûts et une amélioration des performances.
Il offre une nouvelle perspective sur la gestion efficace du contexte dans les agents basés sur LLM.
Limitations:
L'étude a été limitée à un agent spécifique (SWE-agent) et à un ensemble de données (SWE-bench Verified), ce qui peut limiter la généralisabilité.
Les résultats peuvent varier pour d’autres LLM ou types d’emplois.
Des recherches supplémentaires sont nécessaires sur les performances et la stabilité à long terme des stratégies de masquage d’observation.
👍