Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

작성자

Haebom

카테고리

Empty

저자

Dylan Zhang, Yufeng Xu, Haojin Wang, Qingzhi Chen, Hao Peng

💡 개요

기존에는 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 지도 학습 미세 조정(SFT) 후 강화 학습(RL)을 적용하는 방식이 일반적이었으나, SFT 단계가 RL과는 독립적으로 최적화되어 오히려 RL 성능 저하를 야기하는 문제가 있었습니다. 본 연구는 SFT 데이터 분포와 RL 정책 학습 분포 간의 불일치를 해결하기 위해 중요도 샘플링을 활용하여 SFT 손실을 재가중하는 PEAR(Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting) 기법을 제안합니다. PEAR는 토큰, 블록, 시퀀스 수준에서 적용 가능하며, SFT 단계에서부터 RL을 고려하여 모델을 더 효과적으로 준비시킵니다.

🔑 시사점 및 한계

•

SFT 단계에서 RL을 염두에 둔 최적화는 모델의 최종 RL 성능을 크게 향상시킬 수 있습니다.

•

PEAR 기법은 기존 SFT 과정에 적은 오버헤드로 통합되어 RL 성능 향상에 기여할 수 있습니다.

•

제안된 PEAR 기법은 추론 기반 LLM의 후속 학습 과정 전반을 통합적으로 개선하는 데 효과적인 방향을 제시합니다.

•

PEAR 기법의 성능은 적용되는 데이터셋 및 모델 아키텍처에 따라 달라질 수 있으며, 다양한 시나리오에서의 추가적인 검증이 필요합니다.

PDF 보기

Made with Slashpage