Sign In

SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments

작성자
  • Haebom
카테고리
Empty

저자

Avi Arora, Jinu Jang, Roshanak Zilouchian Moghaddam

개요

본 논문은 기존 대규모 언어 모델(LLM) 에이전트 평가가 사전 설정된 환경에서 이루어지는 한계를 지적하고, 실제 소프트웨어 작업을 위한 환경 구축 능력을 평가하는 새로운 벤치마크인 SetupBench를 제시합니다. SetupBench는 빈 Linux 샌드박스에서 시작하여 패키지 설치, 종속성 충돌 해결, 데이터베이스 초기화, 백그라운드 서비스 구성 등의 작업을 수행하는 에이전트의 능력을 평가합니다. 7가지 언어 환경, 5가지 데이터베이스 엔진, 다중 서비스 오케스트레이션 시나리오를 포함하는 93개의 인스턴스로 구성되며, 각 작업에는 자연어 문제 설명과 성공적인 명령어가 함께 제공됩니다. 최첨단 코딩 에이전트인 OpenHands를 통해 평가한 결과, 특히 저장소 설정(38.9-57.4%) 및 로컬 데이터베이스 구성(20.0-53.3%)에서 낮은 성공률을 보였으며, 개발 도구 설치 누락, 작업 제약 조건의 잘못된 이해, 지속되지 않는 환경 수정 등의 체계적인 실패 모드를 확인했습니다. 또한, 에이전트의 탐색 전략의 비효율성을 발견하여, 최적의 인간 행동과 비교했을 때 38-89%의 작업이 불필요한 것으로 나타났습니다. SetupBench는 실제 세계의 과제를 종합적으로 해결하는 차세대 소프트웨어 개발 에이전트를 위한 엄격한 척도를 제공합니다.

시사점, 한계점

시사점:
LLM 에이전트의 실제 환경 구축 능력에 대한 엄격한 평가 기준을 제공합니다.
LLM 에이전트의 환경 설정 능력에 대한 현황과 개선점을 제시합니다. (저장소 설정, 데이터베이스 설정 등의 어려움)
LLM 에이전트의 비효율적인 탐색 전략 개선의 필요성을 강조합니다.
실제 소프트웨어 개발 과정에서 LLM 에이전트의 활용 가능성에 대한 통찰력을 제공합니다.
한계점:
SetupBench는 특정 유형의 환경 설정 작업에 집중되어 있어, LLM 에이전트의 다른 능력을 포괄적으로 평가하지 못할 수 있습니다.
평가에 사용된 OpenHands 에이전트의 성능이 다른 에이전트와 일반화될 수 있는지에 대한 추가적인 연구가 필요합니다.
실제 소프트웨어 개발 환경의 복잡성을 완벽하게 반영하지 못할 수 있습니다.
👍