Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SE-Agent: Optimización de trayectorias de autoevolución en razonamiento multipaso con agentes basados en LLM

Created by
  • Haebom

Autor

Jiaye Lin, Yifu Guo, Yuzhen Han, Sen Hu, Ziyi Ni, Licheng Wang, Mingguang Chen, Daxin Jiang, Binxing Jiao, Chen Hu, Huacan Wang

Describir

Este artículo propone SE-Agent, un nuevo marco de trabajo para optimizar el proceso de resolución de problemas (rutas de interacción) de agentes basados en modelos de lenguaje a gran escala (LLM). Se destacan las ineficiencias de los métodos existentes, como MCTS, debido a las interdependencias y la falta de un espacio de búsqueda diverso. SE-Agent optimiza iterativamente el proceso de resolución de problemas de forma autoevolutiva mediante tres operaciones: modificación, recombinación y mejora de las rutas existentes. Esto le permite explorar diversas rutas de solución y mitigar el impacto de las rutas ineficientes, mejorando así el rendimiento. Los resultados experimentales con SWE-bench Verified demuestran que nuestro enfoque alcanza un rendimiento de vanguardia, con mejoras de hasta el 55 % en cinco LLM robustos.

Takeaways, Limitations

Takeaways:
Un nuevo enfoque para optimizar el proceso de resolución de problemas de agentes basados en LLM.
Ampliar el espacio de búsqueda y mejorar el rendimiento a través de un marco autoevolutivo.
Aprendizaje eficiente mediante la reutilización de rutas existentes
Se validó la practicidad y se logró un rendimiento excelente (hasta un 55 % de mejora del rendimiento) al resolver problemas reales de GitHub.
Mejorar la accesibilidad mediante la divulgación de código abierto
Limitations:
Se necesitan más investigaciones para determinar la generalización del marco propuesto.
Dado que los resultados de la evaluación son para un dominio específico (problema de GitHub), se requiere verificación de escalabilidad a otros dominios.
Aumento potencial del coste computacional (cálculo repetido del proceso de autoevolución)
Dependencia del conjunto de datos verificado de SWE-bench
👍