본 논문은 대규모 언어 모델(LLM)을 활용하는 소프트웨어 개발 에이전트의 동적 문제 해결 과정에 대한 심층적인 경험적 연구를 제시합니다. SWE-Bench 벤치마크의 500개 GitHub 이슈를 기반으로 상위 8개 에이전트의 3,977개 해결 단계 경로와 3,931개 테스트 단계 로그를 분석했습니다. 파이썬 실행 오류와 해결률 및 추론 오버헤드 간의 상관관계를 밝히고, ModuleNotFoundError와 TypeError와 같은 흔한 오류와 OSError, 데이터베이스 관련 오류 등 더 많은 디버깅 노력을 요구하는 어려운 오류들을 특징 지었습니다. 또한, SWE-Bench 플랫폼의 3가지 버그를 발견하여 벤치마크의 공정성과 정확성에 영향을 미친다는 것을 밝히고, 관리자에게 보고했습니다. 데이터셋과 분석 스크립트를 공개적으로 공유하여 투명성을 높이고 향후 연구를 촉진합니다.