Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams

Created by
  • Haebom

저자

Ruoxin Xiong, Yanyu Wang, Suat Gunhan, Yimin Zhu, Charles Berryman

개요

본 연구는 건설 관리(CM) 프로젝트의 복잡성 증가와 엄격한 규제 요구사항 및 인력 부족과 같은 문제점을 해결하기 위해, CM 특화된 문제 해결 능력을 갖춘 분석 도구의 필요성을 제기합니다. 이를 위해 연구진은 전국적으로 인증된 CM 자격 시험에서 발췌한 689개의 객관식 문제로 구성된 CMExamSet이라는 종합적인 벤치마킹 데이터셋을 구축했습니다. GPT-4o와 Claude 3.7을 이용한 제로샷 평가 결과, 두 모델 모두 평균 80% 이상의 정확도를 달성하여 일반적인 인간 합격 기준(70%)을 상회했습니다. 단계별 문제 해결 능력 분석에서는 단일 단계 문제에 대한 정확도가 높았으나, 다단계 문제에서는 정확도가 감소했습니다. 특히 그림 참조 문제에서는 정확도가 현저히 낮았으며, 오류 분석 결과 개념적 오류가 가장 빈번하게 발생했습니다. 이는 LLMs가 CM 분야에서 유용한 보조 분석 도구로서의 잠재력을 가지고 있지만, 도메인 특화된 개선 및 복잡한 의사 결정에 있어 지속적인 인간의 감독이 필요함을 시사합니다.

시사점, 한계점

시사점:
LLMs (GPT-4o, Claude 3.7)이 건설 관리 분야의 문제 해결에 유용한 보조 도구로 활용될 수 있음을 보여줌.
CMExamSet 데이터셋은 LLMs의 CM 분야 성능 평가를 위한 유용한 벤치마킹 도구 제공.
단일 단계 문제에 대한 LLMs의 높은 정확도는 특정 유형의 문제 해결에 대한 효용성을 시사.
한계점:
다단계 문제 및 그림 참조 문제에 대한 LLMs의 정확도가 낮아, 복잡한 문제 해결에는 여전히 한계 존재.
개념적 오류의 높은 비율은 도메인 특화된 지식 및 추론 능력 향상의 필요성을 강조.
LLMs의 활용에는 지속적인 인간의 감독이 필수적임을 강조.
LLMs의 성능 향상을 위해서는 도메인 특화된 추가적인 학습 및 개선이 필요.
👍