Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

Created by
  • Haebom

저자

Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 접근 방식을 제시합니다. 기존 연구들이 추론 시 외부 검증자 LLM을 활용한 다단계 샘플링을 통해 추론 능력을 향상시킨 것과 달리, 본 논문은 단일 LLM 내부적으로 자가 반성 및 전략 탐색을 통한 자동 회귀적 탐색 기능을 내재화하는 데 초점을 맞춥니다. 이를 위해 '행동-사고 연쇄(Chain-of-Action-Thought, COAT)' 추론과 2단계 학습 방식(소규모 형식 조정 및 대규모 자기 개선 단계)을 제안합니다. 70억 매개변수 규모의 오픈소스 모델 Satori를 개발하여 수학적 추론 벤치마크에서 최첨단 성능을 달성하고, 도메인 외 과제에도 우수한 일반화 성능을 보임을 실험적으로 검증했습니다. 코드, 데이터 및 모델은 모두 공개되었습니다.

시사점, 한계점

시사점:
단일 LLM 내부에서 자가 반성 및 전략 탐색을 통한 추론 능력 향상 가능성을 제시.
COAT 추론 및 2단계 학습 방식의 효과성을 실험적으로 검증.
수학적 추론 및 도메인 외 과제에서 최첨단 성능 달성.
오픈소스로 공개되어 연구 및 개발에 기여.
한계점:
Satori 모델의 규모(70억 매개변수)가 다른 최첨단 모델들에 비해 상대적으로 작을 수 있음.
특정 벤치마크에 대한 성능 개선에 초점을 맞추었으므로, 다른 유형의 추론 과제에 대한 일반화 성능은 추가 연구가 필요함.
2단계 학습 방식의 복잡성으로 인해 학습 비용이 높을 수 있음.
👍