본 논문은 대규모 언어 모델(LLM) 기반 프로그래밍 보조 도구의 성능 평가를 위한 새로운 벤치마크인 CodeAssistBench (CAB)를 소개합니다. 기존 벤치마크의 한계를 극복하고, 실제 프로젝트 환경에서의 다중 턴 상호작용을 평가할 수 있도록 설계되었습니다. CAB는 GitHub 이슈를 기반으로 데이터를 자동 구축하며, 3,286개의 실제 이슈와 214개의 저장소를 포함합니다. 실험 결과, 최신 모델들이 기존 질문 답변(Q&A) 벤치마크에서는 높은 정확도를 보이지만, CAB 환경에서는 낮은 성능을 보여주며, 현실적인 프로젝트 환경에서의 어려움을 강조합니다. CAB는 다중 턴, 코드베이스 기반 프로그래밍 에이전트 연구를 위한 확장 가능하고 재현 가능한 프레임워크를 제공합니다.