Beyond Reasoning Gains: Mitigating General-Capability Forgetting in Large Reasoning Models

작성자

Haebom

카테고리

Empty

저자

Hoang Phan, Xianjun Yang, Yuanshun Yao, Jingyu Zhang, Shengjie Bi, Xiaocheng Tang, Madian Khabsa, Lijuan Liu, Deren Lei

💡 개요

본 논문은 강화학습 기반 검증 보상(RLVR)이 대규모 추론 모델의 수학 및 멀티모달 추론 능력을 크게 향상시키지만, 근본적인 일반 역량(예: 인식, 충실도)을 잊게 만드는 '역량 퇴행' 위험을 초래한다는 문제를 제기합니다. 이를 해결하기 위해, 저자들은 동적 객체 재가중화를 활용하는 RECAP이라는 새로운 리플레이 전략을 제안합니다. RECAP은 단기 수렴 및 불안정성 신호를 온라인으로 적응시켜 학습 초점을 조정함으로써 일반 지식 보존을 강화합니다.

🔑 시사점 및 한계

•

RLVR 기법이 추론 능력 향상에 효과적이지만, 기존 모델의 일반 역량 퇴행을 유발할 수 있음을 실증적으로 확인했습니다.

•

제안된 RECAP 전략은 일반 지식 보존과 추론 능력 향상이라는 두 가지 목표를 동시에 달성할 수 있는 효과적인 방법론입니다.

•

RECAP은 추가적인 모델 학습이나 복잡한 튜닝 없이 기존 RLVR 파이프라인에 쉽게 통합될 수 있습니다.

•

본 연구는 Qwen2.5-VL 모델을 대상으로 실험하여 제안된 방법의 효과성을 입증했지만, 다양한 규모와 아키텍처의 다른 모델에 대한 일반화 가능성을 추가적으로 검증할 필요가 있습니다.

PDF 보기

Made with Slashpage