# SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

### 저자

Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried, Gabriel Synnaeve, Rishabh Singh, Sida I. Wang

### 개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 강화 학습(RL)을 적용한 최초의 접근 방식인 SWE-RL을 소개합니다.  기존 연구들이 경쟁적인 코딩 및 수학 문제에 RL을 적용한 것과 달리, SWE-RL은 실제 소프트웨어 엔지니어링에 RL 기반 LLM 추론을 확장합니다. 경량 규칙 기반 보상(예: 실제값과 LLM이 생성한 솔루션 간의 유사도 점수)을 활용하여, SWE-RL은 광범위한 오픈소스 소프트웨어 진화 데이터(코드 스냅샷, 코드 변경, 이슈 및 풀 리퀘스트 등)로부터 학습하여 개발자의 추론 과정과 솔루션을 자율적으로 복구할 수 있도록 합니다. Llama 3를 기반으로 학습된 Llama3-SWE-RL-70B 모델은 실제 GitHub 이슈로 구성된 SWE-bench Verified 데이터셋에서 41.0%의 해결률을 달성하였으며, 이는 100B 미만 중간 크기의 LLM 중 최고 성능이며 GPT-4o와 같은 최고 수준의 독점적 LLM과도 비교 가능합니다.  흥미롭게도, 소프트웨어 진화 데이터에서만 RL을 수행했음에도 불구하고, Llama3-SWE-RL은 일반화된 추론 능력을 보였습니다.  함수 코딩, 라이브러리 사용, 코드 추론, 수학 및 일반 언어 이해 등 5가지 도메인 외 작업에서 성능이 향상되었으며, 반면 지도 학습 기반 미세 조정은 평균적으로 성능 저하를 초래했습니다.  전반적으로 SWE-RL은 대규모 소프트웨어 엔지니어링 데이터를 통한 강화 학습으로 LLM의 추론 능력을 향상시키는 새로운 방향을 제시합니다.

### 시사점, 한계점

- **시사점:**

    - 실제 소프트웨어 엔지니어링 문제에 RL 기반 LLM 추론을 성공적으로 적용한 최초의 사례 제시.

    - 경량 규칙 기반 보상을 사용하여 효율적인 RL 학습 가능성을 보여줌.

    - 100B 미만의 중간 크기 LLM에서 최고 수준의 성능 달성 (GPT-4o 수준에 근접).

    - 소프트웨어 진화 데이터 학습에도 불구하고 일반화된 추론 능력 향상을 보임.

    - LLM의 추론 능력 향상을 위한 새로운 방향 제시.

- **한계점:**

    - SWE-bench Verified 데이터셋의 규모 및 일반화 가능성에 대한 추가적인 연구 필요.

    - 다양한 유형의 소프트웨어 엔지니어링 문제에 대한 일반화 성능 평가 필요.

    - 사용된 보상 함수의 한계 및 개선 가능성에 대한 논의 필요.

    - 대규모 LLM에 대한 적용 및 확장성 연구 필요.

[PDF 보기](https://arxiv.org/pdf/2502.18449)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).