Bài báo này đề cập đến những thách thức trong việc xây dựng các chuẩn mực ngữ cảnh dài thực tế, phù hợp với độ dài ngữ cảnh ngày càng tăng nhanh của các mô hình ngữ cảnh dài, đồng thời trình bày việc hiểu và sửa đổi mã như những tiêu chí đánh giá tự nhiên cho các mô hình ngữ cảnh dài. Chúng tôi giới thiệu chuẩn mực LongCodeBench (LCB), bao gồm các tác vụ trả lời câu hỏi ngữ cảnh dài (LongCodeQA) và sửa lỗi (LongSWE-Bench) tận dụng các vấn đề của GitHub. Bằng cách đánh giá các mô hình có kích thước khác nhau (từ Qwen2.5 14B Instruct đến Google Gemini), chúng tôi chỉ ra rằng ngữ cảnh dài vẫn là một điểm yếu đối với tất cả các mô hình, với mức giảm hiệu suất từ 29% xuống 3% đối với Claude 3.5 Sonnet và từ 70,2% xuống 40% đối với Qwen2.5.