본 논문은 대규모 언어 모델(LLM)의 의식과 유사한 행동을 미로 테스트를 통해 조사한다. 미로 테스트는 1인칭 관점에서 미로를 탐색하도록 모델에 과제를 부여하여 공간 인식, 관점 취하기, 목표 지향적 행동, 시간적 순서 지정 등 의식과 관련된 주요 특징들을 동시에 조사한다. 13가지 필수적인 의식 특성들을 종합하여 12개의 주요 LLM을 제로샷, 원샷, 퓨샷 학습 시나리오에서 평가했다. 결과는 추론 능력이 있는 LLM이 표준 버전보다 일관되게 성능이 우수함을 보여주었으며, Gemini 2.0 Pro는 52.9%의 완전 경로 정확도를, DeepSeek-R1은 80.5%의 부분 경로 정확도를 달성했다. 이러한 지표 간의 차이는 LLM이 해결 과정 전반에 걸쳐 일관된 자기 모델을 유지하는 데 어려움을 겪고 있음을 나타내며, 이는 의식의 기본적인 측면이다. LLM은 추론 메커니즘을 통해 의식 관련 행동에서 발전을 보여주지만, 의식의 특징인 통합적이고 지속적인 자기 인식은 부족하다.