Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

RepoDebug: evaluación de depuración multitarea y multilenguaje a nivel de repositorio de modelos de lenguaje grandes

Created by
  • Haebom

Autor

Jingjing Liu, Zeming Liu, Zihao Cheng, Mengliang He, Xiaoming Shi, Yuhang Guo, Xiangrong Zhu, Yuanfang Guo, Yunhong Wang, Haifeng Wang

Describir

Este artículo se centra en las capacidades de depuración de código de los modelos de lenguaje a gran escala (LLM), en particular su capacidad de reparación automática de programas. Destacamos las limitaciones de los conjuntos de datos de depuración de código existentes, que se centran principalmente en la reparación de código a nivel de función y no contemplan escenarios realistas a nivel de repositorio. Por lo tanto, presentamos RepoDebug, un conjunto de datos de depuración de código a nivel de repositorio multitarea y multilenguaje que abarca una amplia gama de tareas, lenguajes y tipos de error. RepoDebug admite ocho lenguajes de programación, 22 tipos de error y tres tareas de depuración. Los resultados experimentales con diez LLM demuestran que incluso el modelo de mayor rendimiento, Claude 3.5 Sonnect, presenta un rendimiento deficiente en la depuración a nivel de repositorio.

Takeaways, Limitations

Takeaways:
Ofrecemos RepoDebug, un conjunto de datos de depuración de código a nivel de repositorio realista, que establece un nuevo estándar para evaluar el rendimiento de depuración de código de LLM.
Ayuda a evaluar la generalización de LLM al incluir varios lenguajes de programación y tipos de errores.
Presenta claramente el estado actual y las limitaciones de las capacidades de depuración de código a nivel de repositorio de LLM.
Limitations:
Es posible que el conjunto de datos RepoDebug aún no cubra por completo todos los tipos de errores a nivel de repositorio y lenguajes de programación.
Los tipos de LLM utilizados en la evaluación pueden ser limitados.
Es posible que no refleje completamente la complejidad de la depuración a nivel de repositorio.
👍