본 논문은 ChatGPT와 GPT-4와 같은 대규모 언어 모델(LLM)의 텍스트 기반 게임 플레이 능력을 조사한 기술 보고서입니다. 실험 결과, ChatGPT는 기존 시스템들과 비교하여 경쟁력 있는 성능을 보이지만, 여전히 낮은 수준의 지능만을 보여줍니다. 구체적으로, ChatGPT는 게임 플레이나 게임 설명서를 읽는 것으로부터 세계 모델을 구성하지 못하며, 이미 가지고 있는 세계 지식을 활용하지 못하고, 게임 진행에 따른 각 단계의 목표를 추론하지 못하는 것으로 나타났습니다. 이 연구는 인공지능, 기계학습, 자연어 처리 분야의 새로운 연구 질문들을 제기합니다.