대규모 언어 모델(LLM) 기반 인공지능 시스템은 텍스트, 음악, 이미지 생성 능력을 갖추었지만, 지속적인 상태를 유지하지 못하고 각 추론 시마다 처음부터 맥락을 재구성한다. 본 논문은 AI 시스템의 정체성 지속성과 시간적 일관성을 평가하기 위한 개념적 프레임워크인 내러티브 연속성 테스트(NCT)를 소개한다. NCT는 성능 평가 대신, LLM이 시간과 상호작용의 간극을 넘어 동일한 대화 상대(interlocutor)로 유지되는지를 검증한다. NCT는 위치 기반 기억, 목표 지속성, 자율적 자기 수정, 스타일 및 의미론적 안정성, 페르소나/역할 연속성이라는 5가지 필수 축을 정의하고, 현재 아키텍처가 이러한 축을 지원하지 못하는 이유를 설명한다. Character.AI, Grok, Replit, Air Canada 사례 분석을 통해 무상태(stateless) 추론 하에서 예측 가능한 연속성 실패를 보여준다. NCT는 AI 평가의 초점을 성능에서 지속성으로 전환하며, 향후 벤치마크 및 생성 모델의 장기적인 정체성 및 목표 일관성을 유지할 수 있는 아키텍처 설계에 대한 개념적 요구 사항을 제시한다.