Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections
Created by
Haebom
저자
Bo Wang, Qinyuan Cheng, Runyu Peng, Rong Bao, Peiji Li, Qipeng Guo, Linyang Li, Zhiyuan Zeng, Yunhua Zhou, Xipeng Qiu
개요
본 논문은 사전 훈련된 대규모 언어 모델(LLM)의 실세계 작업 적용을 위한 핵심 단계인 사후 훈련 과정에서 시범 학습이나 선호도 신호 학습의 역할을 다루고 있다. Supervised Fine-Tuning (SFT)와 Direct Preference Optimization (DPO)와 같은 선호도 학습 방법을 통합하는 이론적 틀을 제시하며, 엄밀한 수학적 유도를 통해 SFT와 DPO 모두 동일한 최적 정책-보상 부분 공간 내에서 작동하고, SFT는 암묵적 보상 학습의 특수한 경우임을 보여준다. 기존 SFT의 중요한 한계점으로 최적화 중 분포 매칭의 KL divergence 항이 정책에 대해 상수가 되어 모델 업데이트를 제약하지 못하는 점을 지적하고, 이를 해결하기 위해 학습률 감소 기법을 제안하여 성능 향상(최대 25% 상대적 향상 및 6% 절대 승률 증가)을 달성하였다. 또한, 최적화 중 KL 항을 유지하는 다양한 f-divergence 함수에서 파생된 대체 SFT 목적 함수를 도출하여 DPO 후 모델 성능을 더욱 향상시켰으며, 선호도 학습에서 LLM 로짓과 Q-함수 간의 이론적 관계를 SFT 맥락으로 확장하여 수학적 유도와 실험적 검증을 제공한다.
시사점, 한계점
•
시사점:
◦
SFT와 선호도 학습 방법의 통합된 이론적 틀 제시
◦
기존 SFT의 한계점(KL divergence 항의 문제) 규명 및 해결책 제시 (학습률 감소)
◦
대체 SFT 목적 함수 도출을 통한 성능 향상
◦
LLM 로짓과 Q-함수 간 관계의 SFT 맥락으로의 확장 및 검증
◦
Instruction following task에서 상당한 성능 향상 (최대 25% 상대적 향상 및 6% 절대 승률 증가)