Bài báo này tập trung vào khả năng gỡ lỗi mã của các mô hình ngôn ngữ quy mô lớn (LLM), đặc biệt là khả năng sửa chữa chương trình tự động của chúng. Chúng tôi nhấn mạnh những hạn chế của các bộ dữ liệu gỡ lỗi mã hiện có, chủ yếu tập trung vào sửa chữa mã ở cấp độ hàm và không tính đến các tình huống thực tế ở cấp độ kho lưu trữ. Do đó, chúng tôi trình bày RepoDebug, một bộ dữ liệu gỡ lỗi mã ở cấp độ kho lưu trữ đa tác vụ và đa ngôn ngữ, bao gồm nhiều tác vụ, ngôn ngữ và loại lỗi khác nhau. RepoDebug hỗ trợ tám ngôn ngữ lập trình, 22 loại lỗi và ba tác vụ gỡ lỗi. Kết quả thử nghiệm trên mười LLM cho thấy ngay cả mô hình hiệu suất cao nhất, Claude 3.5 Sonnect, cũng không hoạt động tốt trong việc gỡ lỗi ở cấp độ kho lưu trữ.