Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RepoMaster: Autonomous Exploration and Understanding of GitHub Repositories for Complex Task Solving

Created by
  • Haebom

저자

Huacan Wang, Ziyi Ni, Shuo Zhang, Shuo Lu, Sen Hu, Ziyang He, Chen Hu, Jiaye Lin, Yifu Guo, Yuntao Du, Pin Lyu

개요

본 논문은 복잡한 작업을 자율적으로 해결하는 코드 에이전트의 궁극적인 목표를 다룹니다. 대규모 언어 모델(LLM)이 코드 생성에서 상당한 발전을 이루었지만, 실제 작업은 일반적으로 간단한 스크립트가 아닌 완벽한 코드 저장소를 필요로 합니다. 이러한 저장소를 처음부터 구축하는 것은 여전히 큰 과제입니다. GitHub는 개발자가 복잡한 작업을 위한 모듈식 구성 요소로 자주 재사용하는 방대한 개방형 저장소 모음을 제공하지만, OpenHands 및 SWE-Agent와 같은 기존 프레임워크는 이러한 귀중한 리소스를 효과적으로 활용하는 데 어려움을 겪습니다. 본 논문에서는 이러한 문제를 해결하기 위해 GitHub 저장소를 탐색하고 재사용하여 복잡한 작업을 해결하도록 설계된 자율 에이전트 프레임워크인 RepoMaster를 제안합니다. RepoMaster는 효율적인 이해를 위해 함수 호출 그래프, 모듈 종속성 그래프 및 계층적 코드 트리를 구성하여 필수 구성 요소를 식별하고, 전체 저장소가 아닌 식별된 핵심 요소만 LLM에 제공합니다. 자율 실행 중에 탐색 도구를 사용하여 관련 구성 요소를 점진적으로 탐색하고 정보를 제거하여 컨텍스트 사용을 최적화합니다. 조정된 MLE-bench에서 평가한 결과, RepoMaster는 가장 강력한 기준인 OpenHands보다 유효 제출에서 110%의 상대적 향상을 달성했습니다. 새롭게 출시된 GitTaskBench에서는 작업 통과율을 24.1%에서 62.9%로 높이는 동시에 토큰 사용량을 95% 줄였습니다.

시사점, 한계점

시사점:
GitHub 저장소의 효율적인 탐색 및 재사용을 위한 새로운 프레임워크인 RepoMaster 제시.
LLM의 제한된 컨텍스트 창 문제를 해결하기 위한 함수 호출 그래프, 모듈 종속성 그래프, 계층적 코드 트리 활용.
기존 방법 대비 MLE-bench 및 GitTaskBench에서 성능 향상을 입증.
코드 및 데모 자료 공개를 통한 재현성 및 확장성 제공.
한계점:
RepoMaster의 성능은 사용된 LLM 및 GitHub 저장소의 품질에 의존적일 수 있음.
복잡성이 매우 높은 작업이나 특수한 도메인 지식이 필요한 작업에 대한 일반화 성능은 추가 연구가 필요함.
새롭게 제시된 GitTaskBench의 벤치마크의 일반성 및 대표성에 대한 추가 검증 필요.
실제 산업 환경에서의 적용 가능성 및 확장성에 대한 추가적인 실험 필요.
👍