Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning

Created by
  • Haebom

저자

Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 지도 미세조정(SFT)과 강화 학습(RL)의 상호작용을 체계적으로 조사합니다. 특히, 8가지 추론 과제(Countdown, Sudoku, Arc 1D, Geometry, Color Cube Rotation, List Functions, Zebra Puzzles, Self Reference)를 통해 SFT와 RL의 효과, 특히 백트래킹의 역할을 분석합니다. 연구 결과, SFT에서의 짧은 사고 과정(CoT) 시퀀스는 RL 학습에 중간 정도의 기여를 하지만, 과제 난이도가 높아짐에 따라 기여도는 감소하는 것을 확인했습니다. 합성 데이터셋을 이용한 추가 실험을 통해, 백트래킹이 많은 긴 CoT 시퀀스가 더 나은 RL 학습을 유도하며, 더 어려운 문제일수록 SFT 단계에서 더 많은 백트래킹이 필요함을 밝혔습니다. 또한, RL 학습은 긴 CoT 시퀀스의 정확성보다 구조적 패턴에 더 큰 영향을 받는다는 것을 보였습니다. 결론적으로, 본 연구는 LLM의 추론 능력 확장을 위한 효과적인 훈련 전략 설계에 대한 실질적인 통찰력을 제공합니다.

시사점, 한계점

시사점:
SFT와 RL을 결합한 LLM 추론 능력 향상 전략에 대한 실험적 근거 제시.
과제 난이도에 따른 SFT 및 RL 전략 최적화 방안 제시 (백트래킹 횟수 조절).
RL 학습에서 구조적 패턴이 내용 정확성보다 중요함을 밝힘.
LLM 추론 능력 향상을 위한 효과적인 훈련 전략 설계에 대한 실질적인 통찰력 제공.
한계점:
분석에 사용된 과제의 종류 및 수 제한.
실험 환경 및 데이터셋의 일반화 가능성에 대한 추가 검증 필요.
특정 유형의 추론 문제에 국한된 결과. 다양한 유형의 추론 문제에 대한 일반화 여부 추가 연구 필요.
백트래킹의 최적 횟수에 대한 명확한 지침 부재. 문제의 복잡도에 따라 최적의 백트래킹 횟수를 결정하는 더욱 정교한 방법론 연구 필요.
👍