Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SWE-smith: Scaling Data for Software Engineering Agents

Created by
  • Haebom

저자

John Yang, Kilian Leret, Carlos E. Jimenez, Alexander Wettig, Kabir Khandpur, Yanzhe Zhang, Binyuan Hui, Ofir Press, Ludwig Schmidt, Diyi Yang

개요

본 논문은 소프트웨어 엔지니어링을 위한 대규모 언어 모델(LM)의 학습 데이터 수집의 어려움을 해결하기 위해 SWE-smith라는 새로운 파이프라인을 제시합니다. SWE-smith는 임의의 Python 코드베이스를 입력받아 실행 환경을 구축하고, 기존 테스트를 실패하게 만드는 수백에서 수천 개의 작업 인스턴스를 자동으로 생성합니다. 이를 통해 기존 연구보다 10배 이상 큰, 128개의 GitHub 저장소에서 가져온 5만 개의 인스턴스로 구성된 데이터셋을 생성하고, 이를 사용하여 훈련된 SWE-agent-LM-32B 모델은 SWE-bench Verified 벤치마크에서 40.2%의 Pass@1 해결률을 달성하여 오픈 소스 모델 중 최고 성능을 보였습니다. SWE-smith (데이터 수집 절차, 작업 인스턴스, 경로, 모델)는 모두 오픈 소스로 공개되어 소프트웨어 엔지니어링 자동화를 위한 LM 시스템 연구의 진입 장벽을 낮추는 것을 목표로 합니다.

시사점, 한계점

시사점:
소프트웨어 엔지니어링을 위한 대규모 학습 데이터 생성 파이프라인을 제시하여 기존의 데이터 수집 어려움을 해결.
기존 연구보다 훨씬 큰 규모의 데이터셋을 생성하여 LM 성능 향상에 기여.
오픈 소스로 공개하여 연구 접근성 향상 및 커뮤니티 활성화 촉진.
SWE-agent-LM-32B 모델이 오픈 소스 모델 중 최고 성능을 달성.
한계점:
현재 Python 코드베이스에만 국한. 다른 프로그래밍 언어 지원 확장 필요.
SWE-smith의 성능은 입력 코드베이스의 품질에 의존적일 수 있음.
생성된 데이터셋의 다양성 및 일반화 성능에 대한 추가적인 평가 필요.
5만개의 인스턴스는 여전히 특정 문제 영역에 치우칠 수 있으며, 더욱 대규모 데이터셋이 필요할 수 있음.
👍