Sign In

Understanding Code Agent Behaviour: An Empirical Study of Success and Failure Trajectories

Created by
  • Haebom
Category
Empty

저자

Oorja Majgaonkar, Zhiwei Fei, Xiang Li, Federica Sarro, He Ye

개요

본 논문은 대규모 언어 모델(LLM) 에이전트가 복잡한 소프트웨어 엔지니어링 작업을 수행할 때의 문제 해결 행동을 이해하기 위한 연구를 제시한다. 성공적인 문제 해결뿐만 아니라 실패 사례를 포함한 에이전트 궤적(실행 추적)을 분석하여, 문제 해결 전략, 성공 및 실패 패턴, 오류 위치 분석 등을 통해 에이전트 행동에 대한 통찰력을 제공한다. OpenHands, SWE-agent, Prometheus 등 3개의 최첨단 코드 에이전트를 SWE-Bench 벤치마크에서 평가했다.

시사점, 한계점

시사점:
방어적 프로그래밍 및 상황 파악과 같은 다양한 문제 해결 전략이 특정 시나리오에서 성공을 이끌어냄.
실패한 궤적은 성공적인 궤적보다 더 길고 변동성이 큼. 실패 패턴은 에이전트별로 차이가 있음.
오류 위치 분석 결과, 대부분의 궤적이 문제 파일을 정확히 식별하지만(72-81%), 성공은 정확한 코드 수정보다 근사한 코드 수정에 더 의존함.
궤적 분석을 통해 에이전트 행동을 이해하고, 더 견고하고 해석 가능한 자율 소프트웨어 엔지니어링 시스템 개발에 기여.
한계점:
논문에 명시된 한계점은 없음.
👍