본 논문은 대규모 언어 모델(LLM)의 게임 플레이 능력 평가에 대한 어려움과 이를 해결하기 위한 새로운 벤치마크인 lmgame-Bench를 제시한다. LLM을 게임에 직접 적용하는 방식의 문제점으로 취약한 시각적 인식, 프롬프트 민감도, 데이터 오염 가능성을 지적하고, lmgame-Bench는 플랫포머, 퍼즐, 내러티브 게임을 통합된 Gym 스타일 API를 통해 제공하며, 경량의 지각 및 기억 스캐폴드와 함께 프롬프트 변동성을 안정화하고 오염을 제거하도록 설계되었다고 설명한다. 13개의 주요 모델을 대상으로 lmgame-Bench가 모델들을 잘 구분하면서도 어려운 과제임을 보여주고, 상관 분석을 통해 각 게임이 다른 곳에서 개별적으로 테스트되는 능력들을 독특하게 결합하여 평가함을 확인했다. 또한, lmgame-Bench의 단일 게임에서 강화 학습을 수행하면 보이지 않는 게임과 외부 계획 작업 모두에 전이 학습이 가능함을 보였다.