기존 LLM 코딩 에이전트 평가는 최종 결과에만 집중하여 실행 과정 중 발생하는 결함을 놓치는 한계가 있었습니다. 본 논문은 실행 과정을 평가하는 ProcCtrlBench를 제안하며, 11가지 결함을 4가지 범주로 분류하고 표준화된 증거를 통해 에이전트의 궤적을 평가합니다. 또한, 해석 가능성, 중단 가능성, 수정 가능성, 되돌림 가능성, 권한 반납 가능성을 포함하는 제어 보존(control preservation)을 통해 실행 과정의 품질을 측정합니다.