본 논문은 토목공학 분야의 기술 도면 수정 작업에 초점을 맞춘, 대규모 언어 모델(LLM) 에이전트를 위한 새로운 벤치마크인 DrafterBench를 제안합니다. DrafterBench는 실제 도면 파일에서 요약된 12가지 유형의 작업, 46개의 맞춤형 기능/도구, 총 1920개의 작업으로 구성되어 있습니다. LLM 에이전트의 복잡하고 긴 문맥의 지시 사항 해석, 사전 지식 활용, 암묵적 정책 인식을 통한 동적인 지시 사항 품질에 대한 적응 능력을 엄격하게 테스트하기 위해 설계되었습니다. 구조화된 데이터 이해, 함수 실행, 지시 사항 준수, 비판적 추론 등의 다양한 능력을 종합적으로 평가하며, 작업 정확도 및 오류 통계에 대한 상세한 분석을 제공하여 에이전트의 기능에 대한 심층적인 통찰력을 제공하고, 공학 응용 분야에서 LLM 통합을 위한 개선 목표를 파악하는 것을 목표로 합니다. DrafterBench는 오픈소스이며 GitHub 및 Hugging Face에서 이용 가능합니다.