Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks

Created by
  • Haebom

저자

Lianghong Guo, Yanlin Wang, Caihua Li, Pengyu Yang, Jiachi Chen, Wei Tao, Yingtian Zou, Duyu Tang, Zibin Zheng

개요

본 논문은 대규모 언어 모델(LLM)의 소프트웨어 엔지니어링 역량을 훈련 및 평가하기 위한 GitHub 이슈 해결 작업을 위한 대규모 데이터셋 구축의 어려움을 해결하고자, 자동화된 파이프라인인 SWE-Factory를 제안한다. SWE-Factory는 평가 환경 구축 자동화를 위한 다중 에이전트 시스템 SWE-Builder, 수동 파서 작성을 없애는 표준화된 종료 코드 기반 채점 방법, 그리고 신뢰할 수 있는 종료 코드 신호를 이용한 자동화된 fail2pass 검증 과정의 세 가지 핵심 자동화 구성 요소를 통합한다. 실험 결과, SWE-Factory는 유효한 작업 인스턴스를 효과적으로 구축하며, GPT-4.1-mini와 Gemini-2.5-flash를 사용하여 각각 인스턴스당 $0.045와 $0.024의 비용으로 상당한 수의 유효 인스턴스를 생성한다. 또한, 종료 코드 기반 채점은 수동 검사와 100% 일치하는 정확도를 달성하고, 자동화된 fail2pass 검증은 0.92의 정밀도와 1.00의 재현율을 달성한다. 본 논문에서 제시된 자동화 파이프라인은 대규모 고품질 GitHub 이슈 해결 데이터셋 수집을 가속화할 것으로 기대된다. 코드와 데이터셋은 공개적으로 제공된다.

시사점, 한계점

시사점:
LLM의 소프트웨어 엔지니어링 역량 평가를 위한 대규모 데이터셋 구축 과정의 자동화를 통해 효율성 및 비용 절감을 실현하였다.
SWE-Builder를 통해 다양한 LLM을 활용하여 대규모 데이터셋을 효율적으로 생성할 수 있음을 보여주었다.
종료 코드 기반 채점 및 자동화된 fail2pass 검증 방법을 통해 정확하고 신뢰할 수 있는 평가 시스템을 구축하였다.
공개된 코드와 데이터셋을 통해 다른 연구자들의 후속 연구를 촉진할 수 있다.
한계점:
현재 지원하는 프로그래밍 언어의 종류가 제한적일 수 있다. (논문에서 4개 언어 언급)
다양한 유형의 GitHub 이슈에 대한 일반화 성능에 대한 추가적인 검증이 필요할 수 있다.
SWE-Builder의 다중 에이전트 시스템의 복잡성으로 인해 유지보수 및 확장에 어려움이 있을 수 있다.
fail2pass 검증의 정밀도가 100%가 아니며, 이에 대한 추가적인 개선이 필요할 수 있다.
👍