본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 지도 미세 조정(SFT)과 강화 학습(RL)을 통합하는 최적 방법을 연구합니다. 엔트로피 기반 관점에서 토큰 분포, 학습 역학 및 통합 메커니즘을 포괄적으로 분석하여 SFT는 LLM 정책 분포에 거시적인 전반적 변화를 유도하는 반면, RL은 미시적인 선택적 최적화를 수행하며, 엔트로피는 훈련 효과의 중요한 지표임을 밝힙니다. 이러한 관찰을 바탕으로, 본 논문은 엔트로피 인식 가중치 메커니즘을 통해 두 가지 미세 조정 패러다임을 통합하는 단일 단계 방법인 지도 강화 미세 조정(SRFT)을 제안합니다. SRFT는 2단계 순차적 방법 대신 데모와 자기 탐색 롤아웃을 사용하여 LLM을 직접 최적화하기 위해 SFT와 RL을 동시에 적용합니다. 광범위한 실험 결과, SRFT는 5개의 수학적 추론 벤치마크에서 9.0%, 3개의 분포 외 벤치마크에서 10.9%의 성능 향상을 보이며, 평균 59.1%의 정확도를 달성하여 Zero-RL 방법을 능가합니다.
시사점, 한계점
•
시사점:
◦
SFT와 RL의 차이점을 엔트로피 관점에서 명확히 밝힘으로써, 두 방법의 장점을 결합한 새로운 방법론 제시.
◦
단일 단계 방법인 SRFT를 통해 기존의 2단계 순차적 방법보다 효율적인 LLM 미세 조정 가능성 제시.