Cet article se concentre sur les capacités de débogage de code des modèles de langage à grande échelle (LLM), notamment leurs capacités de réparation automatique de programmes. Nous soulignons les limites des jeux de données de débogage de code existants, qui se concentrent principalement sur la réparation de code au niveau fonctionnel et ne prennent pas en compte les scénarios réalistes au niveau du référentiel. Par conséquent, nous présentons RepoDebug, un jeu de données de débogage de code au niveau du référentiel, multitâche et multilingue, qui englobe un large éventail de tâches, de langages et de types d'erreurs. RepoDebug prend en charge huit langages de programmation, 22 types d'erreurs et trois tâches de débogage. Les résultats expérimentaux obtenus sur dix LLM démontrent que même le modèle le plus performant, Claude 3.5 Sonnect, ne parvient pas à obtenir de bons résultats au niveau du référentiel.