VisEscape라는 벤치마크를 소개하는 논문입니다. VisEscape는 탈출 게임 환경을 기반으로 설계된 20개의 가상 탈출 게임으로 구성되어 있으며, AI 모델의 탐색 기반 계획 능력을 평가하기 위해 고안되었습니다. 단순한 퍼즐 해결 능력뿐 아니라, 역동적으로 변화하는 환경에서 공간-시간적 지식을 반복적으로 구성하고 개선하는 능력을 평가합니다. 실험 결과, 최첨단 다중 모달 모델조차도 탈출에 어려움을 겪었으며, 진행 과정과 문제 해결 방식에서 상당한 차이를 보였습니다. 기억 관리 및 추론 기능 통합이 효율적인 탐색과 가설 설정 및 검증을 가능하게 하여 역동적이고 탐색 기반 환경에서 성능 향상에 기여함을 확인했습니다.