대규모 언어 모델(LLM) 기반 인공지능 시스템은 텍스트, 음악, 이미지를 생성할 수 있지만, 지속적인 상태 없이 작동합니다. 이 논문은 AI 시스템의 정체성 지속성과 시간적 일관성을 평가하기 위한 개념적 프레임워크인 Narrative Continuity Test (NCT)를 소개합니다. NCT는 작업 수행 능력을 평가하는 벤치마크와 달리, LLM이 시간과 상호 작용 격차를 두고 동일한 대화 상대자로 유지되는지 검사합니다. NCT는 Situated Memory, Goal Persistence, Autonomous Self-Correction, Stylistic & Semantic Stability, Persona/Role Continuity의 다섯 가지 축을 정의하고, 현재 아키텍처가 왜 이들을 체계적으로 지원하지 못하는지 설명합니다. 사례 분석(Character.AI, Grok, Replit, Air Canada)을 통해 무상태 추론 하에서 예측 가능한 연속성 실패를 보여줍니다. NCT는 AI 평가를 성능에서 지속성으로 재구성하고, 미래 벤치마크 및 생성 모델에서 장기적인 정체성 및 목표 일관성을 유지할 수 있는 아키텍처 설계를 위한 개념적 요구 사항을 제시합니다.