Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La trampa de la complejidad: el enmascaramiento simple de observaciones es tan eficiente como el resumen LLM para la gestión del contexto del agente

Created by
  • Haebom

Autor

Tobias Lindenbauer, Igor Slinko, Ludwig Felder, Egor Bogomolov, Yaroslav Zharov

Describir

Para abordar el alto costo de los agentes de ingeniería de software (SWE) basados ​​en modelos de lenguaje a gran escala (LLM) debido a sus extensos historiales de contexto, este artículo compara y analiza los métodos de resumen existentes basados ​​en LLM con una estrategia simple de enmascaramiento de observaciones. Experimentos con cinco configuraciones de modelo diferentes demuestran que la estrategia de enmascaramiento de observaciones reduce el costo a la mitad, manteniendo una tasa de éxito similar o ligeramente superior a la del método de resumen LLM. Por ejemplo, en el modelo Qwen3-Coder 480B, el enmascaramiento de observaciones mejoró la tasa de éxito del 53,8 % al 54,8 %. Esto sugiere que el enfoque más simple podría ser la forma más efectiva y eficiente de gestionar el contexto en agentes SWE. Para garantizar la reproducibilidad, el código y los datos se hacen públicos.

Takeaways, Limitations

Takeaways: Demostramos que una estrategia sencilla de enmascaramiento de observaciones puede ser más eficiente y rentable que el resumen LLM en la gestión del contexto para agentes SWE basados ​​en LLM. Esto sugiere que un enfoque simple puede superar a las técnicas de resumen complejas.
Limitations: Este estudio se limita a un agente SWE específico (agente SWE) y un punto de referencia (SWE-bench verificado), y su generalización a otros agentes o puntos de referencia es limitada. Se requiere mayor investigación sobre diversos modelos y tareas LLM.
👍