Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Created by
  • Haebom

저자

Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma

개요

본 논문은 기초 모델에 대한 사후 훈련 기법으로 널리 사용되는 지도 미세 조정(SFT)과 강화 학습(RL)의 일반화 능력 향상에 대한 역할을 연구합니다. 텍스트 기반 규칙 변형과 시각적 변형에 초점을 맞춰 SFT와 RL의 일반화 및 암기 능력 차이를 분석합니다. 수리 추론 카드 게임인 GeneralPoints와 실제 내비게이션 환경인 V-IRL을 도입하여 SFT와 RL로 훈련된 모델이 텍스트 및 시각 영역에서 보이지 않는 변형에 얼마나 일반화되는지 평가합니다. 결과적으로, 특히 결과 기반 보상으로 훈련된 RL은 규칙 기반 텍스트 및 시각적 변형 모두에서 일반화되는 반면, SFT는 훈련 데이터를 암기하는 경향이 있으며 분포 외 시나리오에서는 일반화에 어려움을 겪는다는 것을 보여줍니다. 추가 분석을 통해 RL이 모델의 기본 시각 인식 능력을 향상시켜 시각 영역에서의 일반화 향상에 기여함을 밝힙니다. RL의 우수한 일반화에도 불구하고, SFT는 효과적인 RL 훈련에 필수적이며, SFT는 모델의 출력 형식을 안정화하여 후속 RL이 성능 향상을 달성할 수 있도록 합니다. 본 연구는 복잡한 다중 모드 작업에서 일반화 가능한 지식을 획득하기 위한 RL의 능력을 보여줍니다.

시사점, 한계점

시사점:
결과 기반 보상으로 훈련된 RL은 텍스트 및 시각적 변형 모두에서 우수한 일반화 성능을 보임.
RL은 모델의 기본 시각 인식 능력을 향상시켜 시각적 일반화에 기여.
SFT는 효과적인 RL 훈련을 위한 필수적인 전처리 단계임. SFT가 RL의 안정적인 훈련을 지원.
복잡한 다중 모드 작업에서 일반화 가능한 지식을 획득하기 위한 RL의 잠재력을 보여줌.
한계점:
연구에 사용된 GeneralPoints와 V-IRL 환경의 일반성에 대한 추가적인 검증 필요.
다양한 RL 알고리즘과 보상 함수에 대한 추가적인 연구 필요.
SFT와 RL의 상호작용에 대한 더욱 심층적인 분석 필요.
👍