Este estudio demuestra que los agentes de codificación LLM pueden modificarse de forma autónoma utilizando herramientas de codificación básicas y mejorar su rendimiento en tareas de referencia. Presentan mejoras de rendimiento del 17 % al 53 % en subconjuntos aleatorios de SWE Bench Verified, así como mejoras adicionales en LiveCodeBench y en pruebas de referencia de agentes generadas sintéticamente. Este estudio presenta una evolución de diseño automática y abierta de sistemas de agentes y proporciona un marco de referencia para investigadores que intentan entrenar posteriormente a LLM para el uso de herramientas y otras tareas de agentes.