Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

Created by
  • Haebom

저자

Yuqian Fu, Tinghong Chen, Jiajun Chai, Xihuai Wang, Songjun Tu, Guojun Yin, Wei Lin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 지도 미세 조정(SFT)과 강화 학습(RL)을 통합하는 최적 방법을 연구합니다. 엔트로피 기반 관점에서 토큰 분포, 학습 역학 및 통합 메커니즘을 포괄적으로 분석하여 SFT는 LLM 정책 분포에 거시적인 전반적 변화를 유도하는 반면, RL은 미시적인 선택적 최적화를 수행하며, 엔트로피는 훈련 효과의 중요한 지표임을 밝힙니다. 이러한 관찰을 바탕으로, 본 논문은 엔트로피 인식 가중치 메커니즘을 통해 두 가지 미세 조정 패러다임을 통합하는 단일 단계 방법인 지도 강화 미세 조정(SRFT)을 제안합니다. SRFT는 2단계 순차적 방법 대신 데모와 자기 탐색 롤아웃을 사용하여 LLM을 직접 최적화하기 위해 SFT와 RL을 동시에 적용합니다. 광범위한 실험 결과, SRFT는 5개의 수학적 추론 벤치마크에서 9.0%, 3개의 분포 외 벤치마크에서 10.9%의 성능 향상을 보이며, 평균 59.1%의 정확도를 달성하여 Zero-RL 방법을 능가합니다.

시사점, 한계점

시사점:
SFT와 RL의 차이점을 엔트로피 관점에서 명확히 밝힘으로써, 두 방법의 장점을 결합한 새로운 방법론 제시.
단일 단계 방법인 SRFT를 통해 기존의 2단계 순차적 방법보다 효율적인 LLM 미세 조정 가능성 제시.
다양한 벤치마크에서 기존 방법 대비 우수한 성능을 입증.
한계점:
제안된 SRFT 방법의 일반화 성능에 대한 추가적인 검증 필요.
다양한 종류의 LLM 및 추론 작업에 대한 적용 가능성에 대한 추가 연구 필요.
엔트로피 기반 가중치 메커니즘의 최적화 과정에 대한 상세한 설명 부족.
👍