# Evaluating Plan Compliance in Autonomous Programming Agents

### 저자

Shuyang Liu, Saman Dehghan, Jatin Ganhotra, Martin Hirzel, Reyhaneh Jabbarvand

### 💡 개요

본 연구는 자율 프로그래밍 에이전트가 지시받은 계획을 얼마나 준수하는지 체계적으로 분석합니다. 다양한 LLM과 계획 변형을 사용하여 16,991개의 실행 궤적을 평가한 결과, 명시적인 계획이 없을 때 에이전트는 종종 불완전하거나 과적합된 내부 워크플로우에 의존하는 것으로 나타났습니다. 계획을 제공하면 문제 해결 능력이 향상되지만, 잘못된 계획은 오히려 성능을 저하시키며, 특히 초반에 불필요한 단계를 추가하는 것은 부정적인 영향을 줄 수 있음을 발견했습니다.

### 🔑 시사점 및 한계

- 자율 에이전트가 주어진 계획을 얼마나 따르는지에 대한 이해는 에이전트의 실제 문제 해결 능력을 평가하는 데 필수적입니다.

- 계획은 에이전트의 성능에 큰 영향을 미치며, 잘 구성된 계획은 문제 해결 성공률을 높일 수 있습니다.

- 에이전트가 계획을 따르도록 지도하는 새로운 파인튜닝 패러다임에 대한 연구 필요성이 제기됩니다.

- 초반에 과도하게 상세하거나 모델의 내부 전략과 맞지 않는 계획은 오히려 성능을 저하시킬 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2604.12147)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
