Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling

Created by
  • Haebom

저자

Zeyu Huang, Tianhao Cheng, Zihan Qiu, Zili Wang, Yinghui Xu, Edoardo M. Ponti, Ivan Titov

개요

본 논문은 대규모 언어 모델(LLM)의 사후 훈련 기법인 지도 미세 조정(SFT)과 강화 미세 조정(RFT)의 장단점을 분석하고, 이를 통합한 새로운 방법인 Prefix-RFT를 제안합니다. SFT는 모방 능력이 뛰어나지만 일반화에 어려움이 있고, RFT는 성능 향상에 효과적이지만 예상치 못한 동작을 학습하고 초기 정책에 민감하다는 한계를 가지고 있습니다. Prefix-RFT는 SFT와 RFT의 장점을 결합하여 시연 데이터 학습과 탐색 학습을 동시에 수행하며, 수학적 추론 문제를 이용한 실험을 통해 SFT, RFT, 그리고 병렬 혼합 정책 RFT 방법보다 우수한 성능을 보임을 입증합니다. 또한 기존 오픈소스 프레임워크에 쉽게 통합될 수 있으며, 시연 데이터의 질과 양에 대한 강건성도 확인되었습니다.

시사점, 한계점

시사점:
SFT와 RFT의 장점을 통합한 Prefix-RFT는 기존 방법보다 우수한 성능을 보입니다.
Prefix-RFT는 기존 오픈소스 프레임워크에 쉽게 적용 가능합니다.
시연 데이터의 질과 양에 대한 강건성을 확인하였습니다.
SFT와 RFT의 상호 보완적인 특성을 강조하고, 통합된 패러다임이 향후 연구의 유망한 방향임을 제시합니다.
한계점:
수학적 추론 문제라는 특정 영역에서만 성능을 평가하였습니다. 다른 분야에서의 일반화 가능성은 추가 연구가 필요합니다.
Prefix-RFT의 매개변수 설정 및 최적화에 대한 상세한 논의가 부족합니다.
👍