Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs

Created by
  • Haebom

저자

Soumya Rani Samineni, Durgesh Kalwar, Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati

개요

본 논문은 강화학습 기반의 대규모 언어 모델(LLM) 사후 학습, 특히 DeepSeek R1에서 GRPO를 적용한 방법에 대해 비판적으로 검토한다. LLM 학습을 마르코프 의사결정 과정(MDP)으로 모델링할 때의 일반적인 구조적 가정(1. MDP 상태를 행동의 연결로 정의하고, 상태를 문맥 창으로, 행동을 토큰으로 간주, 2. 상태-행동 경로의 보상을 균등하게 분배)이 MDP를 퇴화시켜 강화학습/GRPO 장치가 필요 없게 만든다는 점을 지적한다. 이러한 단순화된 가정으로 인해 강화학습 기반 접근 방식이 결과 중심의 지도 학습과 효과적으로 동등해짐을 보여주는 포괄적인 분석을 제시한다. GSM8K 및 Countdown 벤치마크를 사용한 Qwen-2.5 기본 모델 실험에서 양성 및 음성 샘플을 모두 통합한 반복적인 지도 학습 미세 조정이 GRPO 기반 학습과 비교할 만한 성능을 달성함을 보여준다. 또한, 이러한 구조적 가정이 간접적으로 RL이 더 긴 중간 토큰 시퀀스를 생성하도록 유도하여 "RL이 더 긴 사고 흔적을 생성한다"는 서술을 강화한다는 점을 논증한다. 강화학습이 LLM의 추론 능력 향상에 매우 유용한 기술일 수 있지만, 기본 MDP를 모델링할 때 단순화된 구조적 가정은 널리 사용되는 LLM RL 프레임워크 및 해석에 의문을 제기한다는 것을 보여준다.

시사점, 한계점

시사점: LLM 사후 학습에서 강화학습의 효과에 대한 기존 연구의 구조적 가정에 대한 비판적 검토를 제공한다. 단순한 지도 학습 미세 조정으로도 강화학습 기반 방법과 비슷한 성능을 달성할 수 있음을 실험적으로 보여준다. 강화학습이 LLM 추론 능력 향상에 기여할 수 있으나, 현재의 MDP 모델링 방식의 한계를 지적한다.
한계점: 특정 LLM 및 벤치마크에 대한 실험 결과만 제시되어 일반화 가능성에 대한 추가 연구가 필요하다. 강화학습의 다른 구조적 가정이나 설계에 대한 분석이 부족하다. 더욱 복잡한 추론 과제에 대한 성능 비교가 필요하다.
👍