Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning to Reason under Off-Policy Guidance

Created by
  • Haebom

저자

Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang

개요

본 논문은 대규모 추론 모델(LRMs)의 복잡한 행동(다단계 추론, 자기 반성 등)을 검증 가능한 보상을 통한 강화 학습(RLVR)으로 학습하는 최근 연구를 바탕으로, 기존 RLVR의 한계점인 온-폴리시 학습 방식을 개선하기 위해 LUFFY 프레임워크를 제안합니다. LUFFY는 RLVR에 오프-폴리시 추론 트레이스를 추가하여 온-폴리시 롤아웃과 오프-폴리시 데모를 결합함으로써 모방과 탐색을 동적으로 조절합니다. 이를 위해 이론적으로 수렴 속도가 보장되는 Mixed-Policy GRPO 프레임워크와 규제된 중요도 샘플링을 통한 정책 형성을 결합하여 훈련 중 피상적이고 경직된 모방을 방지합니다. 실험 결과, LUFFY는 기존 RLVR 방법들보다 6개의 수학 벤치마크에서 평균 +6.4 이상의 성능 향상을 달성했고, 분포 외 작업에서 +6.2 이상의 성능 향상을 보였으며, 온-폴리시 RLVR이 완전히 실패하는 시나리오에서도 약한 모델을 성공적으로 훈련시켰습니다. 이는 오프-폴리시 안내를 RLVR에 활용하는 것의 잠재력을 보여줍니다.

시사점, 한계점

시사점:
기존 온-폴리시 RLVR의 한계를 극복하는 오프-폴리시 기반의 새로운 RLVR 프레임워크인 LUFFY 제안.
다양한 수학 벤치마크 및 분포 외 작업에서 기존 RLVR 대비 우수한 성능 향상을 실험적으로 증명.
온-폴리시 RLVR이 실패하는 상황에서도 약한 모델을 성공적으로 학습시키는 가능성 제시.
오프-폴리시 안내를 활용한 RLVR의 잠재력을 보여줌.
한계점:
LUFFY의 성능 향상이 특정 수학 벤치마크 및 특정 유형의 문제에 국한될 가능성.
더욱 다양하고 복잡한 추론 작업에 대한 LUFFY의 일반화 성능 검증 필요.
오프-폴리시 데이터의 품질에 대한 의존성 및 그에 따른 성능 저하 가능성.
Mixed-Policy GRPO와 규제된 중요도 샘플링의 하이퍼파라미터 튜닝에 대한 추가 연구 필요.
👍