본 연구는 모델 기반 추론 능력을 비교하기 위해 "Haunted House"라는 새로운 텍스트 기반 게임을 소개합니다. 9개의 방(3x3 그리드)으로 구성된 집에서 유령을 피해 탈출하는 게임으로, 이동할 때마다 받는 언어적 단서를 통해 진행됩니다. 연구 1에서는 98명의 참가자를 대상으로 실험한 결과, 인간의 성공률은 31.6%였으며, 7개의 최첨단 LLMs보다 성능이 훨씬 우수했습니다. 7개의 LLMs, 140번의 시도 중 Claude 3 Opus만 성공했습니다. GPT-3-mini-high performance는 초기 결과에서 더 높은 성능을 보일 가능성을 보였으나, 인간 수준에는 미치지 못했습니다. 연구 2에서는 29명의 참가자의 이동 경로를 추가 분석하여 LLMs는 무작위적이고 비논리적인 움직임을 자주 보이는 반면, 인간은 그러한 오류를 덜 범한다는 것을 발견했습니다. 본 연구 결과는 현재 LLMs가 능동적인 모델 기반 추론을 요구하는 작업에서 어려움을 겪고 있음을 시사하며, 향후 벤치마크 개발에 대한 영감을 제공합니다.