Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Del código a la corrección: cerrando la última milla de la generación de código con depuración jerárquica

Created by
  • Haebom

Autor

Yuling Shi, Songsong Wang, Chengcheng Wan, Min Wang, Xiaodong Gu

Describir

Este artículo propone un depurador multirresolución (MGDebugger) para superar las limitaciones de la generación de código basada en modelos de lenguaje a gran escala (LLM). MGDebugger aísla, identifica y resuelve errores en el código generado con diversos niveles de granularidad, desde errores sintácticos de bajo nivel hasta fallos algorítmicos de alto nivel. Descompone el código problemático en un árbol jerárquico de subfunciones, donde cada nivel representa un error con una granularidad específica. Mediante un ejecutor de Python basado en LLM, rastrea la ejecución de subfunciones y monitoriza el estado de las variables para identificar errores con precisión. La precisión y la eficiencia se mejoran mediante pruebas a nivel de subfunción y la resolución iterativa de errores de abajo a arriba. Los resultados experimentales con los conjuntos de datos HumanEval y HumanEvalFix demuestran su rendimiento superior en comparación con los sistemas de depuración existentes.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método de depuración que puede contribuir a mejorar la precisión de la generación de código basada en LLM.
Se ha demostrado su eficacia para la resolución de problemas complejos al resolver errores en distintos niveles de granularidad.
Identificación y corrección precisa de errores posible mediante un ejecutor de simulación basado en LLM.
Mejora del rendimiento verificada experimentalmente con respecto a los sistemas existentes en los conjuntos de datos HumanEval y HumanEvalFix.
Limitations:
Actualmente, el sistema está especializado para Python y su aplicabilidad a otros lenguajes de programación requiere más investigación.
Se necesita una mayor validación del rendimiento y la confiabilidad del ejecutor de simulación basado en LLM.
El manejo de tipos de errores muy complejos o especiales requiere mayor experimentación.
Debido a las limitaciones de LLM, es posible que no se detecten ciertos tipos de errores.
👍