Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RepoMaster: Autonomous Exploration and Understanding of GitHub Repositories for Complex Task Solving

Created by
  • Haebom

저자

Huacan Wang, Ziyi Ni, Shuo Zhang, Shuo Lu, Sen Hu, Ziyang He, Chen Hu, Jiaye Lin, Yifu Guo, Yuntao Du, Pin Lyu

개요

본 논문은 복잡한 작업을 자율적으로 해결하는 코드 에이전트의 궁극적인 목표를 다룹니다. 대규모 언어 모델(LLM)이 코드 생성 분야에서 상당한 발전을 이루었지만, 실제 세계의 과제는 단순한 스크립트가 아닌 완벽한 코드 저장소를 필요로 합니다. 기존 프레임워크인 OpenHands 및 SWE-Agent는 GitHub의 방대한 오픈소스 저장소를 효과적으로 활용하는 데 어려움을 겪고 있습니다. README 파일만으로는 충분한 지침을 제공하지 못하며, 저장소의 방대한 정보와 복잡한 종속성이 LLM의 제한된 컨텍스트 창에 의해 제약됩니다. 이러한 문제를 해결하기 위해, 본 논문은 GitHub 저장소를 탐색하고 재사용하여 복잡한 작업을 해결하도록 설계된 자율 에이전트 프레임워크인 RepoMaster를 제안합니다. RepoMaster는 함수 호출 그래프, 모듈 종속성 그래프 및 계층적 코드 트리를 구성하여 필수 구성 요소를 식별하고, 전체 저장소가 아닌 식별된 핵심 요소만 LLM에 제공합니다. 자율 실행 중에 탐색 도구를 사용하여 관련 구성 요소를 점진적으로 탐색하고 정보를 가지치기하여 컨텍스트 사용을 최적화합니다. 조정된 MLE-bench에서 평가한 결과, RepoMaster는 최강의 기준인 OpenHands보다 유효 제출에서 110%의 상대적 향상을 달성했습니다. 새롭게 출시된 GitTaskBench에서는 작업 통과율을 24.1%에서 62.9%로 높이고 토큰 사용량을 95% 줄였습니다.

시사점, 한계점

시사점:
GitHub 저장소의 효율적인 탐색 및 재사용을 위한 새로운 프레임워크 RepoMaster 제시.
LLM의 컨텍스트 창 제한 문제를 함수 호출 그래프, 모듈 종속성 그래프, 계층적 코드 트리 구성을 통해 해결.
기존 프레임워크(OpenHands) 대비 성능 향상을 실험적으로 입증 (MLE-bench 110% 향상, GitTaskBench 작업 통과율 24.1% → 62.9%, 토큰 사용량 95% 감소).
공개적으로 이용 가능한 코드 및 데모 자료 제공.
한계점:
GitTaskBench가 새롭게 출시된 벤치마크이므로, 다른 기존 벤치마크와의 비교 분석이 부족할 수 있음.
RepoMaster의 성능 향상이 특정 유형의 작업에 국한될 가능성 존재.
복잡한 종속성을 가진 대규모 저장소에 대한 적용성 및 확장성에 대한 추가 연구 필요.
다양한 프로그래밍 언어와 코드 스타일을 얼마나 잘 처리하는지에 대한 추가적인 검증 필요.
👍