How Fast Should a Model Commit to Supervision? Training Reasoning Models on the Tsallis Loss Continuum

작성자

Haebom

카테고리

Empty

저자

Chu-Cheng Lin, Eugene Ie

💡 개요

본 논문은 추론 모델 학습 시 지도 학습(SFT)과 강화 학습(RLVR)의 순서 및 단독 사용의 문제점을 '차이(Tsallis) 손실 연속체'라는 통일된 틀로 설명합니다. 제안된 차이 손실 함수 $J_Q$는 $q=0$일 때 RLVR, $q=1$일 때 기존 지도 학습과 유사한 형태를 가지며, $q=1 \to 0$ 순차 학습이 기존 파이프라인에 해당합니다. 이를 통해 SFT가 콜드 스타트 문제를 완화하고 RLVR이 노이즈에 강건함을 이론적으로 설명하며, 새로운 학습 방법론인 GARL과 PAFT를 제시하여 성능 향상을 입증합니다.

🔑 시사점 및 한계

•

SFT-then-RLVR 학습 순서가 이론적으로 타당하며, 각 단계의 역할이 명확히 규명되었습니다.

•

'차이 손실 연속체'는 기존 학습 방법들을 통합적으로 이해하고 새로운 학습 전략을 설계하는 데 유용한 틀을 제공합니다.

•

제안된 GARL과 PAFT 방법론은 콜드 스타트 문제를 효과적으로 완화하고, 특정 데이터셋에서는 기존 방법론 대비 상당한 성능 향상을 달성했습니다.

•

GARL과 PAFT의 최적 $q$ 값 설정이 데이터셋의 안정성 및 학습 특성에 따라 달라지므로, 이에 대한 추가적인 연구와 탐색이 필요합니다.

•

몬테카를로 추정기의 편향(bias)이 존재하므로, 이를 줄이기 위한 개선 방안이 향후 연구 과제가 될 수 있습니다.

PDF 보기

Made with Slashpage