Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Repo2Run: Automated Building Executable Environment for Code Repository at Scale

Created by
  • Haebom

저자

Ruida Hu, Chao Peng, Xinchen Wang, Junjielong Xu, Cuiyun Gao

개요

본 논문은 실행 가능한 코드 데이터의 확장성이 언어 모델의 소프트웨어 엔지니어링 능력 향상에 중요함을 강조합니다. 기존 연구에서 실행 테스트를 기반으로 대규모 실행 가능 코드 저장소를 구축하는 것은 노동 집약적이고 시간이 많이 걸리며 전문 지식에 의존하는 어려움이 있었습니다. 본 논문은 이러한 어려움의 주요 원인이 다양한 저장소에 대한 테스트 환경의 자동 구축에 있음을 지적하고, 이 문제를 해결하기 위해 Repo2Run을 제시합니다. Repo2Run은 LLM 기반 에이전트로, 다양한 저장소에 대한 실행 가능한 테스트 환경 구축을 자동화하는 것을 목표로 합니다. Repo2Run은 Docker 이미지를 반복적으로 구축하고, 구축 피드백을 기반으로 단위 테스트를 실행하며, Dockerfile을 합성하여 전체 파이프라인이 성공적으로 실행될 때까지 작업을 수행합니다. 420개의 Python 저장소를 포함하는 벤치마크를 사용하여 평가한 결과, Repo2Run은 86.0%의 성공률을 달성하여 기존 SWE-agent보다 77.0% 향상된 성능을 보였습니다. Repo2Run의 리소스는 GitHub에서 공개되었습니다.

시사점, 한계점

시사점:
LLM 기반 자동화 에이전트를 통해 대규모 실행 가능 코드 데이터 확보의 효율성을 크게 향상시킬 수 있음을 보여줌.
소프트웨어 엔지니어링 분야에서 LLM의 활용 가능성을 제시하고, 언어 모델의 소프트웨어 엔지니어링 능력 향상에 기여.
Repo2Run의 성공적인 구현 및 성능 향상은 향후 유사한 시스템 개발에 대한 중요한 지침을 제공.
한계점:
현재 Python 저장소에 대한 평가만 수행되어 다른 프로그래밍 언어에 대한 일반화 가능성은 추가 연구가 필요.
벤치마크 데이터셋의 규모가 상대적으로 작아 더욱 대규모 데이터셋을 이용한 검증이 필요.
복잡한 의존성이나 특수한 환경 설정이 필요한 저장소에 대한 처리 성능은 추가 개선이 필요할 수 있음.
LLM 기반이므로 LLM의 한계(예: 환각)가 Repo2Run의 성능에 영향을 줄 수 있음.
👍