Este artículo se centra en las capacidades de depuración de código de los modelos de lenguaje a gran escala (LLM), en particular su capacidad de reparación automática de programas. Destacamos las limitaciones de los conjuntos de datos de depuración de código existentes, que se centran principalmente en la reparación de código a nivel de función y no contemplan escenarios realistas a nivel de repositorio. Por lo tanto, presentamos RepoDebug, un conjunto de datos de depuración de código a nivel de repositorio multitarea y multilenguaje que abarca una amplia gama de tareas, lenguajes y tipos de error. RepoDebug admite ocho lenguajes de programación, 22 tipos de error y tres tareas de depuración. Los resultados experimentales con diez LLM demuestran que incluso el modelo de mayor rendimiento, Claude 3.5 Sonnect, presenta un rendimiento deficiente en la depuración a nivel de repositorio.