On-Policy Supervised Fine-Tuning for Efficient Reasoning

Created by

Haebom

저자

Anhao Zhao, Ziyang Chen, Junlong Tong, Yingqi Fan, Fanghua Ye, Shuhao Li, Yunpu Ma, Wenjie Li, Xiaoyu Shen

💡 개요

본 논문은 복잡한 강화학습(RL) 기법 대신, 정확성과 간결성을 동시에 최적화하는 데 초점을 맞춘 'On-Policy Supervised Fine-Tuning (SFT)'라는 단순화된 훈련 전략을 제안합니다. 제안된 방법은 기존의 복잡한 RL 확장 기법의 불안정성을 해결하고, 두 가지 주요 구성 요소(KL 정규화 및 그룹별 정규화)를 제거하며 길이 페널티를 도입하여 지도 학습 방식으로 전환합니다. 이를 통해 계산 비용을 절감하면서도 정확도와 효율성의 최적 균형점을 달성합니다.

🔑 시사점 및 한계

•

복잡한 강화학습 기반의 다중 보상 목표 설정 대신, 단순화된 지도 학습 방식(On-Policy SFT)으로도 정확성과 간결성을 효과적으로 최적화할 수 있음을 보여줍니다.

•

제안된 On-Policy SFT는 계산 효율성(GPU 메모리 사용량 감소, 수렴 속도 향상) 측면에서 기존 RL 기반 방법론 대비 우수하며, CoT(Chain-of-Thought) 길이도 크게 단축시키면서 정확도를 유지합니다.

•

본 연구에서 제거된 KL 정규화와 그룹별 정규화의 역할 및 복잡한 RL 보상 구조의 근본적인 문제점을 명확히 분석했습니다.

•

향후 연구에서는 On-Policy SFT의 일반성을 다양한 추론 작업 및 모델 아키텍처에 대해 검증하고, 더 발전된 길이 제어 메커니즘을 탐구하는 것이 필요합니다.

PDF 보기

Made with Slashpage