Este artículo demuestra que los sistemas de agentes de modelos de lenguaje a gran escala (LLM) pueden modificarse de forma autónoma y mejorar su rendimiento mediante herramientas de codificación básicas. Los sistemas de agentes LLM alcanzan mejoras de rendimiento de entre el 17 % y el 53 % en subconjuntos aleatorios de SWE Bench Verified, y mejoras adicionales en LiveCodeBench y en benchmarks de agentes generados artificialmente. Esto representa un avance en el diseño automatizado y abierto de sistemas de agentes que demuestran mecanismos de aprendizaje eficientes en datos y sin gradientes, impulsados por la autorreflexión de LLM y las actualizaciones de código.