Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unveiling Pitfalls: Understanding Why AI-driven Code Agents Fail at GitHub Issue Resolution

Created by
  • Haebom
Category
Empty

저자

Zhi Chen, Wei Ma, Lingxiao Jiang

개요

본 논문은 대규모 언어 모델(LLM)을 활용하는 소프트웨어 개발 에이전트의 동적 문제 해결 과정에 대한 심층적인 경험적 연구를 제시합니다. SWE-Bench 벤치마크의 500개 GitHub 이슈를 기반으로 상위 8개 에이전트의 3,977개 해결 단계 경로와 3,931개 테스트 단계 로그를 분석했습니다. 파이썬 실행 오류와 해결률 및 추론 오버헤드 간의 상관관계를 밝히고, ModuleNotFoundError와 TypeError와 같은 흔한 오류와 OSError, 데이터베이스 관련 오류 등 더 많은 디버깅 노력을 요구하는 어려운 오류들을 특징 지었습니다. 또한, SWE-Bench 플랫폼의 3가지 버그를 발견하여 벤치마크의 공정성과 정확성에 영향을 미친다는 것을 밝히고, 관리자에게 보고했습니다. 데이터셋과 분석 스크립트를 공개적으로 공유하여 투명성을 높이고 향후 연구를 촉진합니다.

시사점, 한계점

시사점:
소프트웨어 개발 에이전트의 동적 문제 해결 과정에 대한 깊이 있는 이해를 제공합니다.
파이썬 실행 오류와 문제 해결 성공률 간의 상관관계를 제시합니다.
에이전트 개발 및 벤치마킹 개선에 필요한 주요 오류 유형을 식별합니다.
SWE-Bench 플랫폼의 버그를 발견하고 수정을 요청하여 벤치마크의 신뢰성을 높였습니다.
공개된 데이터셋과 스크립트는 향후 연구를 위한 기반을 마련합니다.
한계점:
분석 대상이 특정 벤치마크(SWE-Bench)와 에이전트에 국한될 수 있습니다.
다양한 프로그래밍 언어와 개발 환경에 대한 일반화 가능성이 제한적일 수 있습니다.
분석된 오류 유형 외 다른 유형의 오류에 대한 추가 연구가 필요할 수 있습니다.
👍