Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning

Created by
  • Haebom

저자

Yurun Yuan, Fan Chen, Zeyu Jia, Alexander Rakhlin, Tengyang Xie

개요

본 논문은 대규모 언어 모델(LLM)의 추론 향상을 위한 강화 학습(RL)에서 가치 기반 접근 방식을 재조명합니다. 기존의 Bellman 잔차 최소화 패러다임을 바탕으로, LLM에 적합한 새로운 알고리즘인 Trajectory Bellman Residual Minimization (TBRM)을 제시합니다. TBRM은 모델의 로짓을 Q-값으로 활용하여 단일 궤적 수준의 Bellman 목적 함수를 최적화하는 간단하면서도 효과적인 오프폴리시 알고리즘입니다. 임계값, 중요도 샘플링 비율, 클리핑이 필요 없으며, 프롬프트당 하나의 롤아웃만으로 작동합니다. 개선된 궤적 측정 변경 분석을 통해 임의의 오프폴리시 데이터로부터 거의 최적의 KL-정규화된 정책으로의 수렴을 증명합니다. 표준 수학적 추론 벤치마크 실험에서 PPO 및 GRPO와 같은 정책 기반 기준 알고리즘보다 일관되게 우수한 성능을 보이며, 계산 및 메모리 오버헤드는 비슷하거나 더 낮습니다. 결과적으로 가치 기반 RL이 LLM의 추론 능력 향상을 위한 원칙적이고 효율적인 대안이 될 수 있음을 시사합니다.

시사점, 한계점

시사점:
LLM의 추론 향상을 위한 가치 기반 강화학습 알고리즘 TBRM 제시
기존 정책 기반 방법(PPO, GRPO 등) 대비 우수한 성능 및 효율성 입증
임계값, 중요도 샘플링, 클리핑 등의 복잡한 요소 제거
단일 궤적 최적화를 통한 계산 및 메모리 효율 증대
수렴성에 대한 이론적 증명 제시
한계점:
제시된 알고리즘의 성능이 특정 수학적 추론 벤치마크에 국한됨. 다른 종류의 작업에 대한 일반화 성능 추가 검증 필요.
실험 결과가 제한된 벤치마크에 기반. 더 광범위한 실험 및 다양한 LLM에 대한 추가 연구 필요.
현재 알고리즘의 복잡도와 실제 적용 가능성에 대한 추가 분석 필요.
👍