Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La trampa de la complejidad: el enmascaramiento simple de observaciones es tan eficiente como el resumen LLM para la gestión del contexto del agente

Created by
  • Haebom

Autor

Tobias Lindenbauer, Igor Slinko, Ludwig Felder, Egor Bogomolov, Yaroslav Zharov

Describir

Este artículo presenta los resultados de un análisis comparativo de estrategias de gestión de historiales de contexto extensos en un agente de ingeniería de software (SWE) basado en modelos de lenguaje (LLM) a gran escala. Comparamos métodos de resumen basados ​​en LLM existentes, como OpenHands y Cursor, con el enmascaramiento de observaciones, un método que simplemente ignora las observaciones previas, utilizando diversas configuraciones de modelo en el conjunto de datos verificado de SWE-bench. Observamos que la estrategia de enmascaramiento de observaciones logró tasas de resolución de problemas similares o ligeramente superiores a las de los métodos de resumen basados ​​en LLM, a la vez que redujo el coste a la mitad. Por ejemplo, en el modelo Qwen3-Coder 480B, el enmascaramiento de observaciones mejoró la tasa de resolución de problemas del 53,8 % al 54,8 %, logrando un rendimiento similar al del resumen LLM a un coste menor. Este estudio sugiere que, al menos en los entornos de SWE-agent y SWE-bench Verified, la gestión de contexto más eficaz y eficiente podría ser el enfoque más sencillo. Para garantizar la reproducibilidad, publicamos el código y los datos.

Takeaways, Limitations

Takeaways:
Demostramos que una estrategia simple de enmascaramiento de observaciones puede ser más eficiente y efectiva que las técnicas de resumen complejas en agentes SWE basados ​​en LLM.
Presentamos una estrategia práctica de gestión del contexto que puede lograr simultáneamente una reducción de costos y una mejora del rendimiento.
Proporciona una nueva perspectiva sobre la gestión eficiente del contexto en agentes basados ​​en LLM.
Limitations:
El estudio se limitó a un agente específico (SWE-agent) y un conjunto de datos (SWE-bench Verified), lo que puede limitar la generalización.
Los resultados pueden variar para otros LLM o tipos de trabajo.
Se necesitan más investigaciones sobre el rendimiento y la estabilidad a largo plazo de las estrategias de enmascaramiento de la observación.
👍