Agent GPA (Goal-Plan-Action) 프레임워크를 소개합니다. 이는 목표 설정, 계획 수립, 행동 실행의 에이전트 운영 루프를 기반으로 하는 평가 패러다임입니다. Goal Fulfillment, Logical Consistency, Execution Efficiency, Plan Quality, Plan Adherence의 다섯 가지 평가 지표를 포함합니다. TRAIL/GAIA 데이터셋 및 자체 제작 데이터셋에 대한 실험 결과는 이 프레임워크가 광범위한 에이전트 실패를 체계적으로 다루고, LLM-judge와 높은 일치도를 보이며, 에이전트 성능 향상을 위한 오류를 정확히 찾아낸다는 것을 보여줍니다.