본 논문은 기존의 코드 생성 중심적인 프로그래밍 어시스턴트 평가 벤치마크의 한계를 극복하고, 실제 코드베이스를 기반으로 다중 턴 상호작용을 평가하는 새로운 벤치마크 프레임워크인 CodeAssistBench (CAB)를 제시합니다. CAB은 GitHub 이슈 데이터를 활용하여 자동으로 확장 가능한 데이터셋을 생성하고, 컨테이너화된 코드베이스 환경에서 모델을 평가합니다. 231개 저장소, 7개 프로그래밍 언어, 3,286개의 실제 프로그래밍 질문으로 구성된 테스트 세트를 통해 주요 LLMs을 평가한 결과, Stack Overflow 질문에서는 높은 성공률(70-83%)을 보였으나, CAB의 최근 이슈에서는 16.49%의 낮은 성공률을 보이며, 복잡한 프로젝트 특정 맥락에서의 어시스턴스 제공의 어려움을 강조합니다.