Trong bài báo này, chúng tôi trình bày CodeAssistBench (CAB), một khuôn khổ chuẩn mực mới để đánh giá hỗ trợ lập trình đa vòng sử dụng cơ sở mã thực tế nhằm khắc phục những hạn chế của các chuẩn mực hiện tại tập trung vào việc tạo mã. CAB tạo ra một tập dữ liệu có khả năng tự động mở rộng bằng cách sử dụng dữ liệu sự cố GitHub và đánh giá các mô hình trong môi trường cơ sở mã được đóng gói. Chúng tôi đánh giá các mô hình ngôn ngữ quy mô lớn (LLM) hàng đầu trên một bộ thử nghiệm bao gồm 231 kho lưu trữ, 7 ngôn ngữ lập trình và 3.286 câu hỏi lập trình thực tế. Chúng tôi nhận thấy hiệu suất của chúng trong môi trường dự án phức tạp thấp hơn đáng kể so với việc trả lời câu hỏi đơn lẻ (lên đến 16,49% đối với các câu hỏi CAB so với 70-83% đối với các câu hỏi Stack Overflow). Điều này cho thấy khoảng cách hiệu suất đáng kể giữa việc trả lời câu hỏi đơn giản và việc cung cấp hỗ trợ trong các tình huống phức tạp, cụ thể của dự án.