본 논문은 CodeLLMs(Code Large Language Models)와 에이전트를 위한 기존 벤치마크에 대한 종합적인 검토를 제공합니다. 461편의 관련 논문에서 181개의 벤치마크를 연구 및 분석하여 소프트웨어 개발 수명 주기(SDLC)의 여러 단계를 다룹니다. 분석 결과, 현재 벤치마크의 약 60%가 소프트웨어 개발 단계에 집중되어 있으며, 요구 사항 엔지니어링 및 소프트웨어 설계 단계는 각각 5%와 3%만을 차지하는 등 상당한 불균형이 있음을 밝혔습니다. 또한, 검토된 벤치마크에서 Python이 주요 프로그래밍 언어로 나타났습니다. 마지막으로, 본 논문은 현재 연구의 과제를 강조하고, CodeLLMs와 에이전트의 이론적 기능과 실제 시나리오에서의 응용 간의 격차를 줄이기 위한 미래 방향을 제시합니다.