Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Strategist: Self-improvement of LLM Decision Making via Bi-Level Tree Search

Created by
  • Haebom

저자

Jonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu

개요

본 논문은 전통적인 강화학습의 데이터 의존성과 대규모 언어 모델(LLM)의 계획 능력 부족이라는 한계를 극복하기 위해, LLM과 Monte Carlo Tree Search (MCTS)를 통합한 새로운 접근 방식인 STRATEGIST를 제시합니다. STRATEGIST는 LLM을 사용하여 고수준 전략을 텍스트 형태로 생성하고, MCTS를 통해 이를 세분화하고 실행합니다. 훈련 데이터 없이 population-based self-play simulation을 통해 전략을 최적화하며, 부분 정보를 가진 경쟁적인 턴제 게임에서 효과적인 전략 학습을 보여줍니다. Game of Pure Strategy (GOPS)와 The Resistance: Avalon과 같은 다중 에이전트 숨겨진 신분 토론 게임에서 기존 강화학습 기반 에이전트, 다른 LLM 기반 기술, 기존 LLM 에이전트들을 능가하는 성능을 보이며, 인간 플레이어와 비슷한 수준의 성능을 달성합니다.

시사점, 한계점

시사점:
LLM과 MCTS의 장점을 결합하여 전통적인 강화학습의 한계를 극복하는 새로운 접근법 제시.
훈련 데이터 없이 population-based self-play를 통해 효과적인 전략 학습 가능성을 보여줌.
부분 정보를 가진 복잡한 게임 환경에서 우수한 성능을 달성.
기존 방법 대비 향상된 성능을 실험적으로 검증.
한계점:
제시된 게임 환경 외 다른 환경에서의 일반화 성능에 대한 추가적인 연구 필요.
LLM의 성능에 의존적일 수 있음. LLM의 성능 향상에 따라 STRATEGIST의 성능도 영향을 받을 수 있음.
고수준 전략 생성에 대한 LLM의 해석력과 MCTS의 효율성에 대한 추가적인 분석 필요.
👍