Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RL Fine-Tuning Heals OOD Forgetting in SFT

Created by
  • Haebom

저자

Hangzhan Jin, Sitao Luan, Sicheng Lyu, Guillaume Rabusseau, Reihaneh Rabbany, Doina Precup, Mohammad Hamdaqa

개요

SFT 후 RL을 따르는 2단계 미세 조정 방식이 LLM의 추론 성능을 향상시킨다는 것은 경험적으로 입증되었지만, SFT와 RL의 시너지 효과에 대한 메커니즘은 불분명하다. 본 연구에서는 "SFT는 기억하고, RL은 일반화한다"는 주장이 단순화되었다는 점을 발견했다. SFT는 OOD 성능이 초기에 최고조에 달한 후 감소하고, RL은 근본적으로 OOD 능력을 향상시키기보다는 SFT 과정에서 손실된 추론 능력을 'OOD 복원'하는 역할을 한다. SFT가 너무 짧거나 너무 오래 훈련되면 RL은 손실된 OOD 능력을 복원할 수 없으며, 특이값 분해(SVD) 분석을 통해 파라미터 행렬의 회전이 OOD 동작과 강하게 연관되어 있음을 발견했다.

시사점, 한계점

"SFT는 기억하고, RL은 일반화한다"는 기존 주장에 대한 재평가.
SFT에서의 OOD 성능 감소(OOD forgetting) 현상 발견.
RL의 역할은 OOD 복원이며, 복원 능력에는 한계가 존재.
파라미터 행렬의 특이 벡터 회전이 OOD 동작의 핵심 메커니즘임을 밝힘.
SVD 분석을 통해 모델 동작의 메커니즘을 규명.
코드 제공.
👍