Sign In

Code World Models for General Game Playing

Created by
  • Haebom
Category
Empty

저자

Wolfgang Lehrach, Daniel Hennes, Miguel Lazaro-Gredilla, Xinghua Lou, Carter Wendelken, Zun Li, Antoine Dedieu, Jordi Grau-Moya, Marc Lanctot, Atil Iscen, John Schultz, Marcus Chiam, Ian Gemp, Piotr Zielinski, Satinder Singh, Kevin P. Murphy

개요

대규모 언어 모델(LLM)을 사용하여 고전적인 보드 및 카드 게임을 하는 새로운 접근 방식을 제시한다. LLM을 활용하여 자연어 규칙 및 게임 궤적을 Python 코드로 표현되는 실행 가능한 월드 모델로 변환한다. 이 모델은 상태 전환, 합법적인 이동 열거, 종료 확인을 위한 함수로 구성되어 있으며, 몬테카를로 트리 탐색(MCTS)과 같은 고성능 계획 알고리즘을 위한 검증 가능한 시뮬레이션 엔진 역할을 한다. 또한 LLM을 사용하여 휴리스틱 가치 함수와 추론 함수를 생성하여 MCTS 효율성을 높인다. 제안하는 방법은 직접적인 정책으로 LLM을 사용하는 방식에 비해 검증 가능성, 전략적 깊이, 일반화의 세 가지 장점을 제공한다. 10개의 다양한 게임에서 평가했으며, 9개 게임에서 Gemini 2.5 Pro보다 뛰어나거나 동등한 성능을 보였다.

시사점, 한계점

시사점:
LLM을 활용한 게임 플레이에서 직접적인 정책 생성이 아닌, 실행 가능한 월드 모델 생성 방식을 제안하여 새로운 접근 방식을 제시했다.
게임 규칙의 검증 가능성을 확보하고, 전략적 깊이를 향상시켰다.
새로운 게임에 쉽게 적응할 수 있는 일반화 능력을 보여주었다.
다양한 게임 환경에서 우수한 성능을 입증했다.
한계점:
생성된 월드 모델의 정확성에 의존하므로, LLM이 생성한 코드의 오류는 전체 시스템의 성능에 영향을 미칠 수 있다.
MCTS와 같은 고전적인 계획 알고리즘의 사용은 계산 비용을 증가시킬 수 있다.
실험에 사용된 게임의 종류가 제한적이며, 더 복잡한 게임 환경에서의 성능 검증이 필요하다.
👍