본 논문은 대규모 언어 모델(LLMs)의 생애 내내 학습 능력을 평가하기 위한 새로운 벤치마크인 LIFESTATE-BENCH를 제시합니다. 기존 벤치마크가 정적이고 개방적인 평가에 집중하는 것과 달리, LIFESTATE-BENCH는 햄릿과 인공 스크립트 모음으로 구성된 두 개의 에피소드 데이터셋을 활용하여, 서사 구조와 등장인물 간 상호 작용이 풍부한 다중 턴, 다중 에이전트 상호 작용을 통해 LLMs의 생애 내내 학습 능력을 평가합니다. 여기에는 사실 확인 평가를 통해 모델의 자기 인식, 에피소드 기억 검색 및 관계 추적 능력을 매개변수 및 비매개변수 접근 방식 모두에서 평가합니다. Llama3.1-8B, GPT-4-turbo, DeepSeek R1과 같은 모델에 대한 실험을 통해, 비매개변수 방법이 상태 유지 학습 관리에 있어 매개변수 방법보다 훨씬 우수함을 보여주지만, 모든 모델이 상호 작용이 길어짐에 따라 치명적인 망각 현상을 보임을 확인했습니다.