ProcCtrlBench: Evaluating Process-Level Defects and Control Preservation in LLM Coding Agents

Author

Haebom

저자

Jiawei He, Jie Jia, Chenbo Liu, Chaoyi Xue, Yapeng Song, Xikai Yang, Dong Sun

💡 개요

기존 LLM 코딩 에이전트 평가는 최종 결과에만 집중하여 실행 과정 중 발생하는 결함을 놓치는 한계가 있었습니다. 본 논문은 실행 과정을 평가하는 ProcCtrlBench를 제안하며, 11가지 결함을 4가지 범주로 분류하고 표준화된 증거를 통해 에이전트의 궤적을 평가합니다. 또한, 해석 가능성, 중단 가능성, 수정 가능성, 되돌림 가능성, 권한 반납 가능성을 포함하는 제어 보존(control preservation)을 통해 실행 과정의 품질을 측정합니다.

🔑 시사점 및 한계

•

LLM 코딩 에이전트의 실행 과정 중 발생하는 다양한 결함을 체계적으로 식별하고 평가할 수 있는 새로운 벤치마크를 제시합니다.

•

기존 결과 중심 평가에서 놓치기 쉬운 에이전트의 실행 품질 차이를 명확하게 드러낼 수 있습니다.

•

해석 가능성, 중단 가능성, 수정 가능성 등의 제어 보존 지표를 통해 에이전트의 실질적인 유용성을 측정하는 새로운 관점을 제공합니다.

•

다양한 LLM 코딩 에이전트 및 실제 문제에 적용 가능성을 보여주었으나, 벤치마크 구축 및 평가 방법론의 지속적인 개선과 검증이 필요합니다.

PDF 보기

Made with Slashpage