Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search
Created by
Haebom
저자
Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan
개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 접근 방식을 제시합니다. 기존 연구들이 추론 시 외부 검증자 LLM을 활용한 다단계 샘플링을 통해 추론 능력을 향상시킨 것과 달리, 본 논문은 단일 LLM 내부적으로 자가 반성 및 전략 탐색을 통한 자동 회귀적 탐색 기능을 내재화하는 데 초점을 맞춥니다. 이를 위해 '행동-사고 연쇄(Chain-of-Action-Thought, COAT)' 추론과 2단계 학습 방식(소규모 형식 조정 및 대규모 자기 개선 단계)을 제안합니다. 70억 매개변수 규모의 오픈소스 모델 Satori를 개발하여 수학적 추론 벤치마크에서 최첨단 성능을 달성하고, 도메인 외 과제에도 우수한 일반화 성능을 보임을 실험적으로 검증했습니다. 코드, 데이터 및 모델은 모두 공개되었습니다.
시사점, 한계점
•
시사점:
◦
단일 LLM 내부에서 자가 반성 및 전략 탐색을 통한 추론 능력 향상 가능성을 제시.
◦
COAT 추론 및 2단계 학습 방식의 효과성을 실험적으로 검증.
◦
수학적 추론 및 도메인 외 과제에서 최첨단 성능 달성.
◦
오픈소스로 공개되어 연구 및 개발에 기여.
•
한계점:
◦
Satori 모델의 규모(70억 매개변수)가 다른 최첨단 모델들에 비해 상대적으로 작을 수 있음.
◦
특정 벤치마크에 대한 성능 개선에 초점을 맞추었으므로, 다른 유형의 추론 과제에 대한 일반화 성능은 추가 연구가 필요함.