로그인

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

작성자
  • Haebom
카테고리
비어 있음

저자

Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried, Gabriel Synnaeve, Rishabh Singh, Sida I. Wang

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 강화 학습(RL)을 적용한 최초의 접근 방식인 SWE-RL을 소개합니다. 기존 연구들이 경쟁적인 코딩 및 수학 문제에 RL을 적용한 것과 달리, SWE-RL은 실제 소프트웨어 엔지니어링에 RL 기반 LLM 추론을 확장합니다. 경량 규칙 기반 보상(예: 실제값과 LLM이 생성한 솔루션 간의 유사도 점수)을 활용하여, SWE-RL은 광범위한 오픈소스 소프트웨어 진화 데이터(코드 스냅샷, 코드 변경, 이슈 및 풀 리퀘스트 등)로부터 학습하여 개발자의 추론 과정과 솔루션을 자율적으로 복구할 수 있도록 합니다. Llama 3를 기반으로 학습된 Llama3-SWE-RL-70B 모델은 실제 GitHub 이슈로 구성된 SWE-bench Verified 데이터셋에서 41.0%의 해결률을 달성하였으며, 이는 100B 미만 중간 크기의 LLM 중 최고 성능이며 GPT-4o와 같은 최고 수준의 독점적 LLM과도 비교 가능합니다. 흥미롭게도, 소프트웨어 진화 데이터에서만 RL을 수행했음에도 불구하고, Llama3-SWE-RL은 일반화된 추론 능력을 보였습니다. 함수 코딩, 라이브러리 사용, 코드 추론, 수학 및 일반 언어 이해 등 5가지 도메인 외 작업에서 성능이 향상되었으며, 반면 지도 학습 기반 미세 조정은 평균적으로 성능 저하를 초래했습니다. 전반적으로 SWE-RL은 대규모 소프트웨어 엔지니어링 데이터를 통한 강화 학습으로 LLM의 추론 능력을 향상시키는 새로운 방향을 제시합니다.

시사점, 한계점

시사점:
실제 소프트웨어 엔지니어링 문제에 RL 기반 LLM 추론을 성공적으로 적용한 최초의 사례 제시.
경량 규칙 기반 보상을 사용하여 효율적인 RL 학습 가능성을 보여줌.
100B 미만의 중간 크기 LLM에서 최고 수준의 성능 달성 (GPT-4o 수준에 근접).
소프트웨어 진화 데이터 학습에도 불구하고 일반화된 추론 능력 향상을 보임.
LLM의 추론 능력 향상을 위한 새로운 방향 제시.
한계점:
SWE-bench Verified 데이터셋의 규모 및 일반화 가능성에 대한 추가적인 연구 필요.
다양한 유형의 소프트웨어 엔지니어링 문제에 대한 일반화 성능 평가 필요.
사용된 보상 함수의 한계 및 개선 가능성에 대한 논의 필요.
대규모 LLM에 대한 적용 및 확장성 연구 필요.
👍