CodeSense는 실제 소프트웨어 엔지니어링(SE) 맥락에서 대규모 언어 모델(LLM)의 코드 추론 능력을 평가하기 위한 새로운 벤치마크입니다. 기존 벤치마크들이 주로 합성 데이터셋이나 교육용 코딩 문제에 의존하고, 입출력 예측과 같은 조악한 추론 작업에 초점을 맞춘 것과 달리, CodeSense는 실제 저장소에서 수집한 Python, C, Java 프로젝트를 기반으로 하여 세분화된 코드 추론 작업을 다룹니다. 실제 코드의 실행 추적을 수집하여 정답 데이터셋을 구성하고, 최첨단 LLM을 포괄적으로 평가하여 모델의 세분화된 추론 작업 처리 능력에 대한 성능 격차를 보여줍니다. 또한, 세분화된 SE 추론 작업에 대한 정답을 쉽게 수집할 수 있는 실행 추적 프레임워크와 도구 세트를 제공하여 향후 벤치마크 구축 및 모델 재훈련의 기반을 마련합니다.