Code World Models for General Game Playing

Created by

Haebom

저자

Wolfgang Lehrach, Daniel Hennes, Miguel Lazaro-Gredilla, Xinghua Lou, Carter Wendelken, Zun Li, Antoine Dedieu, Jordi Grau-Moya, Marc Lanctot, Atil Iscen, John Schultz, Marcus Chiam, Ian Gemp, Piotr Zielinski, Satinder Singh, Kevin P. Murphy

개요

대규모 언어 모델(LLM)을 사용하여 고전적인 보드 및 카드 게임을 하는 새로운 접근 방식을 제시한다. LLM을 활용하여 자연어 규칙 및 게임 궤적을 Python 코드로 표현되는 실행 가능한 월드 모델로 변환한다. 이 모델은 상태 전환, 합법적인 이동 열거, 종료 확인을 위한 함수로 구성되어 있으며, 몬테카를로 트리 탐색(MCTS)과 같은 고성능 계획 알고리즘을 위한 검증 가능한 시뮬레이션 엔진 역할을 한다. 또한 LLM을 사용하여 휴리스틱 가치 함수와 추론 함수를 생성하여 MCTS 효율성을 높인다. 제안하는 방법은 직접적인 정책으로 LLM을 사용하는 방식에 비해 검증 가능성, 전략적 깊이, 일반화의 세 가지 장점을 제공한다. 10개의 다양한 게임에서 평가했으며, 9개 게임에서 Gemini 2.5 Pro보다 뛰어나거나 동등한 성능을 보였다.