본 논문은 기존 대규모 언어 모델(LLM) 에이전트 평가가 사전 설정된 환경에서 이루어지는 한계를 지적하고, 실제 소프트웨어 작업을 위한 환경 구축 능력을 평가하는 새로운 벤치마크인 SetupBench를 제시합니다. SetupBench는 빈 Linux 샌드박스에서 시작하여 패키지 설치, 종속성 충돌 해결, 데이터베이스 초기화, 백그라운드 서비스 구성 등의 작업을 수행하는 에이전트의 능력을 평가합니다. 7가지 언어 환경, 5가지 데이터베이스 엔진, 다중 서비스 오케스트레이션 시나리오를 포함하는 93개의 인스턴스로 구성되며, 각 작업에는 자연어 문제 설명과 성공적인 명령어가 함께 제공됩니다. 최첨단 코딩 에이전트인 OpenHands를 통해 평가한 결과, 특히 저장소 설정(38.9-57.4%) 및 로컬 데이터베이스 구성(20.0-53.3%)에서 낮은 성공률을 보였으며, 개발 도구 설치 누락, 작업 제약 조건의 잘못된 이해, 지속되지 않는 환경 수정 등의 체계적인 실패 모드를 확인했습니다. 또한, 에이전트의 탐색 전략의 비효율성을 발견하여, 최적의 인간 행동과 비교했을 때 38-89%의 작업이 불필요한 것으로 나타났습니다. SetupBench는 실제 세계의 과제를 종합적으로 해결하는 차세대 소프트웨어 개발 에이전트를 위한 엄격한 척도를 제공합니다.