본 논문은 대규모 언어 모델(LLM)의 추론 및 문제 해결 능력을 평가하기 위한 비디오 게임 벤치마크인 GVGAI-LLM을 소개합니다. General Video Game AI 프레임워크를 기반으로 하며, 다양한 아케이드 스타일 게임을 포함하여 기존 LLM 벤치마크와 다른 유형의 과제를 테스트합니다. 이 벤치마크는 새로운 게임과 레벨을 빠르게 생성할 수 있는 게임 설명 언어를 사용하며, LLM이 효율적으로 처리할 수 있도록 각 게임 장면을 ASCII 문자로 표현합니다. GVGAI-LLM은 의미 있는 단계 비율, 단계 효율성 및 전체 점수를 포함한 해석 가능한 메트릭을 정의합니다. 다양한 게임과 레벨에서 제로샷 평가를 통해 LLM의 공간 추론 및 기본적인 계획 능력에 대한 지속적인 한계를 확인했습니다.