Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs

Created by
  • Haebom

저자

Soumya Rani Samineni, Durgesh Kalwar, Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati

개요

본 논문은 대규모 언어 모델(LLM)의 강화 학습 기반 재훈련, 특히 GRPO를 사용한 DeepSeek R1의 발표 이후 주목받고 있는 방법론에 대한 비판적 검토를 제시한다. LLM 훈련을 마르코프 결정 과정(MDP)으로 모델링하는 데 사용되는 일반적인 구조적 가정(1. MDP 상태를 액션과 상태의 연결로, 즉 컨텍스트 창을 상태로, 토큰을 액션으로 정의, 2. 상태-액션 경로의 보상을 균일하게 분할)을 강조하고, 이러한 가정이 퇴화된 MDP를 초래하여 RL/GRPO 기법이 실제로 필요하지 않음을 보여준다. GSM8K 및 Countdown 벤치마크를 사용한 실험을 통해 양성 및 음성 샘플을 모두 포함하는 반복적인 지도 학습 미세 조정이 GRPO 기반 훈련과 비슷한 성능을 달성함을 보여준다. 또한, 이러한 구조적 가정이 RL이 더 긴 중간 토큰 시퀀스를 생성하도록 간접적으로 유도하여 "RL이 더 긴 사고 흔적을 생성한다"는 설명을 뒷받침한다는 주장을 제기한다. 결론적으로, RL이 LLM의 추론 능력 향상에 매우 유용한 기술일 수 있지만, 기본 MDP를 모델링하는 데 사용되는 단순화된 구조적 가정으로 인해 인기 있는 LLM RL 프레임워크와 해석에 의문이 제기된다는 것을 보여준다.

시사점, 한계점

시사점: LLM의 강화학습 기반 재훈련에서 일반적으로 사용되는 구조적 가정의 문제점을 밝히고, 단순한 지도학습으로도 유사한 성능을 달성할 수 있음을 실험적으로 입증하였다. "RL이 더 긴 사고 흔적을 생성한다"는 기존의 해석에 대한 재고를 촉구한다.
한계점: 본 연구는 특정 구조적 가정을 가진 MDP 모델링에 초점을 맞추었으며, 다른 RL 기법이나 MDP 모델링 방식에는 적용되지 않을 수 있다. 더욱 다양한 LLM과 벤치마크에 대한 추가 연구가 필요하다. 지도학습과의 비교에서 사용된 지도학습 방식의 세부적인 설정에 대한 자세한 설명이 부족할 수 있다.
👍