Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning to Reason under Off-Policy Guidance

Created by
  • Haebom

저자

Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang

개요

본 논문은 대규모 추론 모델(LRM)의 복잡한 행동(다단계 추론, 자기 성찰 등)을 검증 가능한 보상을 사용한 강화 학습(RLVR)을 통해 학습하는 최근 연구에 대해 다룹니다. 기존 RLVR 접근 방식은 본질적으로 온-폴리시(on-policy) 방식이어서 모델 자체의 출력에 학습이 제한되고 초기 능력을 넘어서는 추론 능력을 습득하지 못하는 한계가 있습니다. 이를 해결하기 위해, 본 논문은 오프-폴리시(off-policy) 추론 트레이스를 RLVR에 추가하는 LUFFY(Learning to reason Under OFF-policy guidance) 프레임워크를 제시합니다. LUFFY는 학습 중에 오프-폴리시 데모와 온-폴리시 롤아웃을 결합하여 모방과 탐색 간의 균형을 동적으로 조절합니다. LUFFY는 이론적으로 수렴 속도가 보장되는 Mixed-Policy GRPO 프레임워크와 규제된 중요도 샘플링을 통한 정책 형성을 결합하여 혼합 정책 학습 중에 피상적이고 엄격한 모방을 방지합니다. 실험 결과, LUFFY는 기존 RLVR 방법에 비해 6개의 수학 벤치마크에서 평균 +6.4 이상의 성능 향상을 달성했고, 분포 외(out-of-distribution) 작업에서 +6.2점 이상의 이점을 보였습니다. 특히, 온-폴리시 RLVR이 완전히 실패하는 시나리오에서 LUFFY가 약한 모델을 성공적으로 학습시킨다는 것을 보여줍니다. 이러한 결과는 LUFFY가 온-폴리시 RLVR의 근본적인 한계를 극복하고 오프-폴리시 안내를 RLVR에 활용하는 큰 잠재력을 보여준다는 강력한 증거를 제공합니다.

시사점, 한계점

시사점:
오프-폴리시 추론 트레이스를 활용한 RLVR 프레임워크인 LUFFY를 제시하여 온-폴리시 RLVR의 한계를 극복.
수학 벤치마크 및 분포 외 작업에서 기존 RLVR 방법보다 우수한 성능을 입증.
온-폴리시 RLVR이 실패하는 상황에서도 약한 모델을 성공적으로 학습시킬 수 있음을 보임.
오프-폴리시 안내를 RLVR에 활용하는 가능성을 제시.
한계점:
LUFFY의 성능 향상이 특정 수학 벤치마크 및 분포 외 작업에 국한될 가능성.
더욱 다양하고 복잡한 추론 작업에 대한 LUFFY의 일반화 성능 평가 필요.
Mixed-Policy GRPO 및 규제된 중요도 샘플링의 최적 파라미터 설정에 대한 추가 연구 필요.
👍