Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Path Not Taken: RLVR Provably Learns Off the Principals

Created by
  • Haebom
Category
Empty

저자

Hanqing Zhu, Zhenyu Zhang, Hanxian Huang, DiJia Su, Zechun Liu, Jiawei Zhao, Igor Fedorov, Hamed Pirsiavash, Zhizhou Sha, Jinwon Lee, David Z. Pan, Zhangyang Wang, Yuandong Tian, Kai Sheng Tai

개요

RLVR(Reinforcement Learning with Verifiable Rewards)는 대규모 언어 모델의 추론 성능을 향상시키지만, 비교적 적은 수의 파라미터만 변경하는 현상을 보인다. 본 논문은 이러한 현상의 원인을 밝히기 위해, 모델 조건부 최적화 편향(model-conditioned optimization bias)을 제시한다. 즉, 사전 학습된 모델이 고정된 상태에서, 업데이트는 특정 파라미터 영역에 집중되며, 이는 실행 간, 데이터셋 및 RL 레시피에 크게 의존하지 않고 일관되게 나타난다. 논문은 Three-Gate Theory를 통해 이러한 역학을 설명한다. Gate I (KL Anchor)는 KL 제약 조건 업데이트를 부과하고, Gate II (Model Geometry)는 주성분 방향에서 벗어나 곡률이 낮은 스펙트럼 보존 부분 공간으로 단계를 유도하며, Gate III (Precision)는 선호되지 않는 영역에서 마이크로 업데이트를 숨겨 비주성분 편향을 희소성으로 보이게 한다.

시사점, 한계점

RLVR은 가중치 공간에서 주성분 방향이 아닌 곳에서 학습하며, 최소한의 스펙트럼 드리프트, 주성분 하위 공간 회전 감소, 비주성분 업데이트 정렬을 통해 성능을 향상시킨다.
SFT(Supervised Fine-Tuning)는 주성분 가중치를 목표로 하며, 스펙트럼을 왜곡시키고 RLVR보다 뒤쳐진다.
RL은 SFT와는 다른 최적화 영역에서 작동하므로, SFT 시대의 파라미터 효율적인 미세 조정(PEFT) 방법을 직접 적용하는 것은 적절하지 않을 수 있다.
본 연구는 RLVR의 학습 역학에 대한 파라미터 공간적 설명을 제공하며, 파라미터가 진화하는 방식에서 명확한 규칙성을 보여준다.
미세 조정 및 LoRA 변형과 같은 PEFT 기술에 대한 사례 연구를 통해 이러한 한계를 보여준다.
본 연구는 RLVR에 대한 화이트 박스 이해와 기하학적 인식, RLVR 네이티브 학습 알고리즘 설계를 위한 기반을 마련한다.
👍