Agentic 시스템은 소프트웨어 파이프라인에 배치되어 인터페이스를 노출하고 조정된 모듈로 구성된다. 이러한 시스템은 본질적으로 확률적이며 해결하려는 문제에 적응한다. 최종 단계에서의 성공 또는 실패를 기준으로 성능을 평가하는 결과 중심 평가 방식은 에이전트가 시간 경과에 따라 어떻게 추론, 계획, 행동 또는 전략을 변경하는지에 대한 자세한 통찰력을 간과한다. 본 논문은 에이전트 시스템의 시간적 및 의미적 관계를 체계적으로 인코딩하기 위해 Graphectory를 도입하여 프로세스 중심 메트릭 및 분석 설계를 용이하게 한다. SWE-bench Verified 문제를 해결하려는 4개의 핵심 대규모 언어 모델(LLM)을 조합하여 SWE-agent 및 OpenHands의 2가지 주요 에이전트 프로그래밍 워크플로우 4000개의 궤적을 분석했다.
시사점, 한계점
•
풍부한 프롬프트 또는 더 강력한 LLM을 사용하는 에이전트는 더 복잡한 Graphectory를 보이며, 이는 더 깊은 탐색, 더 광범위한 컨텍스트 수집 및 패치 제출 전 더 철저한 검증을 반영한다.
•
에이전트의 문제 해결 전략은 문제의 난이도와 기본 LLM에 따라 다르며, 해결된 문제의 경우 전략은 종종 일관된 로컬라이제이션-패칭-검증 단계를 따르는 반면, 해결되지 않은 문제는 혼란스럽고 반복적이거나 백트래킹 동작을 나타낸다.
•
성공적인 경우에도 에이전트 프로그래밍 시스템은 종종 비효율적인 프로세스를 보여 불필요하게 긴 궤적으로 이어진다.