Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce

Created by
  • Haebom

저자

Wei Xiong, Jiarui Yao, Yuhui Xu, Bo Pang, Lei Wang, Doyen Sahoo, Junnan Li, Nan Jiang, Tong Zhang, Caiming Xiong, Hanze Dong

개요

본 논문은 강화학습(RL)을 이용한 대규모 언어 모델(LLM) 미세 조정에서 GRPO 알고리즘의 효과성 원인을 분석하고, 더 간단하고 효율적인 대안을 제시합니다. 기존 GRPO의 성공에도 불구하고, 그 효과의 근원이 명확하지 않다는 점을 지적하며, 긍정적 보상만을 사용하는 단순한 기각 샘플링 기반 알고리즘인 RAFT가 GRPO 및 PPO와 비슷한 성능을 보임을 발견합니다. 이를 통해 GRPO의 주요 장점이 보상 정규화가 아닌 완전히 잘못된 응답을 가진 프롬프트를 버리는 것임을 밝히고, 완전히 잘못된 응답과 완전히 맞는 응답을 모두 필터링하는 Reinforce-Rej 알고리즘을 제안합니다. Reinforce-Rej는 KL 효율성과 안정성을 향상시키는 경량의 효과적인 RL 알고리즘으로 제시되며, RAFT를 강력하고 해석 가능한 기준 알고리즘으로 제시합니다. 결론적으로, 부정적 샘플을 무분별하게 사용하기보다는 원칙적인 설계에 중점을 둔 미래 연구의 방향을 제시합니다.

시사점, 한계점

시사점:
GRPO의 효과성이 보상 정규화보다 잘못된 응답 필터링에 기인함을 밝힘으로써 RL 기반 LLM 미세 조정 연구에 대한 새로운 통찰력 제공.
간단하고 효율적인 RAFT와 Reinforce-Rej 알고리즘을 제시하여 RL 기반 LLM 미세 조정의 효율성 향상에 기여.
부정적 샘플 활용에 대한 새로운 접근 방식을 제시하여 향후 연구 방향 제시.
RAFT를 강력하고 해석 가능한 기준 알고리즘으로 제시하여 향후 연구의 비교 기준 마련.
한계점:
RAFT와 Reinforce-Rej의 성능이 다양한 LLM 및 작업에 대해 얼마나 일반화될 수 있는지에 대한 추가 연구 필요.
제안된 알고리즘의 샘플 효율성에 대한 더 깊이 있는 분석 필요.
부정적 샘플의 원칙적인 통합에 대한 구체적인 설계 방안 제시 부족.
👍