대규모 언어 모델 기반 프로그래밍 어시스턴트의 발전에도 불구하고, 기존 벤치마크는 좁은 코드 생성 환경에서만 평가된다. CodeAssistBench (CAB)는 다중 턴, 프로젝트 기반 프로그래밍 지원을 대규모로 평가하기 위한 최초의 벤치마크이다. CAB는 질문으로 태그된 GitHub issue로부터 자동으로 데이터를 구성하며, LLM 기반 파이프라인을 사용하여 노이즈를 필터링하고, 실행 가능한 컨텍스트를 추출하며, 실행 가능한 컨테이너를 구축하고, 환경의 정확성을 검증한다. 이를 통해 수동 개입 없이 다양한 레포지토리에 걸쳐 지속적이고 자동화된 확장이 가능하다. CAB를 사용하여 7개 언어, 214개의 레포지토리에서 3,286개의 실제 issue를 테스트베드로 구축했다. 최첨단 모델을 평가한 결과, Stack Overflow 스타일의 질문에서 70-83%의 정확도를 보이는 모델들이 post-training-cutoff 레포지토리의 CAB issue에서는 16.49%만 해결하는 등 상당한 격차를 보였다. 수동으로 검증된 149개의 issue에서 Claude Sonnet 4.5와 같은 최고 모델은 12.08%의 정확도만 기록했다. CAB는 실제 프로젝트 특정 컨텍스트에서 지원하는 데 어려움을 겪는 현재 LLM의 근본적인 문제점을 강조하며, 다중 턴, 코드베이스 기반 프로그래밍 에이전트 연구를 발전시키기 위한 확장 가능하고 재현 가능한 프레임워크를 제공한다.