Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

HyperAgent: Agentes de ingeniería de software generalistas para resolver tareas de codificación a escala

Created by
  • Haebom

Autor

Huy Nhat Phan, Tien N. Nguyen, Phong X. Nguyen, Nghi DQ Bui

Describir

Este artículo presenta HyperAgent, un innovador sistema multiagente de propósito general diseñado para realizar una amplia gama de tareas de ingeniería de software (SE) en varios lenguajes de programación. HyperAgent cuenta con cuatro agentes especializados (Planificador, Navegador, Editor de Código y Ejecutor) que imitan el flujo de trabajo de un desarrollador humano y gestionan todo el ciclo de vida de una tarea de SE, incluyendo la planificación, la navegación, la edición de código y la ejecución. Demostramos que HyperAgent supera a los sistemas de vanguardia existentes en diversas tareas de SE, como la resolución de problemas de GitHub mediante el benchmark SWE-Bench, la generación de código a nivel de repositorio mediante RepoExec, y la localización de defectos y la reparación de programas mediante Defects4J.

Takeaways, Limitations

Takeaways:
Demostramos que un sistema multiagente basado en LLM puede imitar eficazmente el flujo de trabajo de los desarrolladores humanos y automatizar varias tareas de SE.
HyperAgent ha demostrado ser un sistema de propósito general aplicable a tareas generales de SE, a diferencia de los sistemas existentes limitados a funciones específicas.
Se demostró la excelencia del sistema al superar el mejor desempeño anterior en varios puntos de referencia.
Limitations:
El artículo carece de una descripción detallada de la implementación específica de HyperAgent o del mecanismo operativo de cada agente.
Aunque muestra un rendimiento generalizado para una variedad de tareas de SE, existe la posibilidad de degradación del rendimiento para ciertos tipos de tareas o lenguajes de programación.
Se requiere verificación adicional de aplicabilidad y estabilidad en entornos comerciales reales.
👍