본 논문은 최근 급증하는 장문맥 모델(Long-context models)의 성능 평가를 위한 새로운 벤치마크인 LongCodeBench (LCB)를 제안합니다. LCB는 실제 GitHub 이슈에서 추출한 코드 이해 및 수정 문제를 바탕으로, 장문맥 상황에서의 LLM 코딩 능력을 평가합니다. LongCodeQA (코드 이해를 위한 질의응답)와 LongSWE-Bench (버그 수정) 두 가지 과제로 구성되며, Qwen2.5 14B Instruct부터 Google Gemini까지 다양한 모델의 성능을 다양한 난이도로 평가합니다. 실험 결과, 모든 모델에서 장문맥 처리 능력이 부족하며, 모델에 따라 성능 저하가 크게 나타나는 것을 확인했습니다 (예: Claude 3.5 Sonnet은 29%에서 3%로, Qwen2.5는 70.2%에서 40%로 성능 저하). 기존 벤치마크의 한계를 극복하고, 실제적인 장문맥 문제 해결 능력을 평가하는 데 초점을 맞추고 있습니다.