Sign In

Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents

Created by
  • Haebom
Category
Empty

저자

Jiayi Kuang, Yinghui Li, Xin Zhang, Yangning Li, Di Yin, Xing Sun, Ying Shen, Philip S. Yu

개요

대규모 언어 모델 기반 에이전트가 소프트웨어 엔지니어링에 유망하지만, 환경 구성은 수동 노력과 양질의 대규모 데이터 세트 부족으로 인해 병목 현상으로 남아 있습니다. 기존 벤치마크는 최종 빌드/테스트 성공 여부만 평가하여 에이전트의 성공과 실패 원인을 모호하게 합니다. 본 연구는 환경 설정, 계획, 인식 기반 오류 진단, 피드백 기반 수정, 최종 환경 구성을 위한 액션 실행 등 에이전트의 세분화된 역량을 과정별로 평가하는 환경 구성 진단 벤치마크(Enconda-bench)를 제시합니다. Enconda-bench는 현실적인 README 오류를 주입하여 자동 생성된 작업 인스턴스를 사용하고, 확장 가능하고 품질 높은 평가를 위해 Docker에서 검증합니다. Enconda-bench는 과정별 분석과 최종 실행 가능성을 결합하여 집계된 성공률을 넘어선 역량 평가를 가능하게 합니다. 최첨단 LLM 및 에이전트 프레임워크에 대한 평가 결과 에이전트가 오류를 찾아낼 수 있지만, 피드백을 효과적인 수정으로 변환하는 데 어려움을 겪어 최종 성능이 제한됨을 보여줍니다. Enconda-bench는 환경 구성에 대한 과정별 내부 역량 평가를 제공하는 최초의 프레임워크로, 소프트웨어 엔지니어링 에이전트 개선을 위한 실행 가능한 통찰력을 제공합니다.

시사점, 한계점

시사점:
에이전트의 환경 설정 과정에 대한 세분화된 평가를 제공하여, 에이전트의 강점과 약점을 파악할 수 있도록 함.
피드백 기반 수정 능력이 부족하다는 점을 발견하여, 향후 연구 방향을 제시함.
소프트웨어 엔지니어링 에이전트 개발에 실질적인 도움을 줄 수 있는 프레임워크를 제시.
한계점:
현재 연구에서는 피드백 기반 수정 능력이 부족하다는 점을 지적했지만, 구체적인 개선 방안에 대한 연구는 부족함.
제시된 벤치마크의 확장성 및 다양한 환경에서의 적용 가능성에 대한 추가적인 연구가 필요함.
특정 LLM 및 에이전트 프레임워크에 대한 평가 결과만 제시되었으므로, 일반화된 결론을 내리기에는 한계가 있음.
👍