본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 강화 학습(RL)을 적용한 최초의 접근 방식인 SWE-RL을 소개합니다. 기존 연구들이 경쟁적인 코딩 및 수학 문제에 RL을 적용한 것과 달리, SWE-RL은 실제 소프트웨어 엔지니어링에 RL 기반 LLM 추론을 확장합니다. 경량 규칙 기반 보상(예: 실제값과 LLM이 생성한 솔루션 간의 유사도 점수)을 활용하여, SWE-RL은 광범위한 오픈소스 소프트웨어 진화 데이터(코드 스냅샷, 코드 변경, 이슈 및 풀 리퀘스트 등)로부터 학습하여 개발자의 추론 과정과 솔루션을 자율적으로 복구할 수 있도록 합니다. Llama 3를 기반으로 학습된 Llama3-SWE-RL-70B 모델은 실제 GitHub 이슈로 구성된 SWE-bench Verified 데이터셋에서 41.0%의 해결률을 달성하였으며, 이는 100B 미만 중간 크기의 LLM 중 최고 성능이며 GPT-4o와 같은 최고 수준의 독점적 LLM과도 비교 가능합니다. 흥미롭게도, 소프트웨어 진화 데이터에서만 RL을 수행했음에도 불구하고, Llama3-SWE-RL은 일반화된 추론 능력을 보였습니다. 함수 코딩, 라이브러리 사용, 코드 추론, 수학 및 일반 언어 이해 등 5가지 도메인 외 작업에서 성능이 향상되었으며, 반면 지도 학습 기반 미세 조정은 평균적으로 성능 저하를 초래했습니다. 전반적으로 SWE-RL은 대규모 소프트웨어 엔지니어링 데이터를 통한 강화 학습으로 LLM의 추론 능력을 향상시키는 새로운 방향을 제시합니다.