Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections

Created by
  • Haebom

저자

Bo Wang, Qinyuan Cheng, Runyu Peng, Rong Bao, Peiji Li, Qipeng Guo, Linyang Li, Zhiyuan Zeng, Yunhua Zhou, Xipeng Qiu

개요

본 논문은 사전 훈련된 대규모 언어 모델(LLM)의 실세계 작업 적용을 위한 핵심 단계인 사후 훈련 과정에서 시범 학습이나 선호도 신호 학습의 역할을 다루고 있다. Supervised Fine-Tuning (SFT)와 Direct Preference Optimization (DPO)와 같은 선호도 학습 방법을 통합하는 이론적 틀을 제시하며, 엄밀한 수학적 유도를 통해 SFT와 DPO 모두 동일한 최적 정책-보상 부분 공간 내에서 작동하고, SFT는 암묵적 보상 학습의 특수한 경우임을 보여준다. 기존 SFT의 중요한 한계점으로 최적화 중 분포 매칭의 KL divergence 항이 정책에 대해 상수가 되어 모델 업데이트를 제약하지 못하는 점을 지적하고, 이를 해결하기 위해 학습률 감소 기법을 제안하여 성능 향상(최대 25% 상대적 향상 및 6% 절대 승률 증가)을 달성하였다. 또한, 최적화 중 KL 항을 유지하는 다양한 f-divergence 함수에서 파생된 대체 SFT 목적 함수를 도출하여 DPO 후 모델 성능을 더욱 향상시켰으며, 선호도 학습에서 LLM 로짓과 Q-함수 간의 이론적 관계를 SFT 맥락으로 확장하여 수학적 유도와 실험적 검증을 제공한다.

시사점, 한계점

시사점:
SFT와 선호도 학습 방법의 통합된 이론적 틀 제시
기존 SFT의 한계점(KL divergence 항의 문제) 규명 및 해결책 제시 (학습률 감소)
대체 SFT 목적 함수 도출을 통한 성능 향상
LLM 로짓과 Q-함수 간 관계의 SFT 맥락으로의 확장 및 검증
Instruction following task에서 상당한 성능 향상 (최대 25% 상대적 향상 및 6% 절대 승률 증가)
한계점:
제안된 방법의 일반성 및 다른 유형의 작업에 대한 적용 가능성에 대한 추가 연구 필요
학습률 감소 기법의 최적 값 설정에 대한 추가 연구 필요
제안된 이론적 틀의 한계 및 적용 가능 범위에 대한 명확한 논의 필요
👍