본 논문은 대규모 언어 모델(LLM) 에이전트가 복잡한 소프트웨어 엔지니어링 작업을 수행할 때의 문제 해결 행동을 이해하기 위한 연구를 제시한다. 성공적인 문제 해결뿐만 아니라 실패 사례를 포함한 에이전트 궤적(실행 추적)을 분석하여, 문제 해결 전략, 성공 및 실패 패턴, 오류 위치 분석 등을 통해 에이전트 행동에 대한 통찰력을 제공한다. OpenHands, SWE-agent, Prometheus 등 3개의 최첨단 코드 에이전트를 SWE-Bench 벤치마크에서 평가했다.