본 연구는 건설 관리(CM) 프로젝트의 복잡성 증가와 엄격한 규제 요구사항 및 인력 부족과 같은 문제점을 해결하기 위해, CM 특화된 문제 해결 능력을 갖춘 분석 도구의 필요성을 제기합니다. 이를 위해 연구진은 전국적으로 인증된 CM 자격 시험에서 발췌한 689개의 객관식 문제로 구성된 CMExamSet이라는 종합적인 벤치마킹 데이터셋을 구축했습니다. GPT-4o와 Claude 3.7을 이용한 제로샷 평가 결과, 두 모델 모두 평균 80% 이상의 정확도를 달성하여 일반적인 인간 합격 기준(70%)을 상회했습니다. 단계별 문제 해결 능력 분석에서는 단일 단계 문제에 대한 정확도가 높았으나, 다단계 문제에서는 정확도가 감소했습니다. 특히 그림 참조 문제에서는 정확도가 현저히 낮았으며, 오류 분석 결과 개념적 오류가 가장 빈번하게 발생했습니다. 이는 LLMs가 CM 분야에서 유용한 보조 분석 도구로서의 잠재력을 가지고 있지만, 도메인 특화된 개선 및 복잡한 의사 결정에 있어 지속적인 인간의 감독이 필요함을 시사합니다.