본 논문은 동적인 환경에서 작동하는 지능형 에이전트에게 필수적인 평생 학습(Lifelong Learning) 능력을 평가하기 위한 통합 벤치마크인 LifelongAgentBench를 제시합니다. 기존의 대규모 언어 모델(LLM) 기반 에이전트는 상태 비저장(stateless)이며 시간에 따라 지식을 축적하거나 전이할 수 없다는 한계를 가지고 있으며, 기존 벤치마크는 에이전트를 정적 시스템으로 취급하여 평생 학습 능력을 평가하지 못한다는 문제점을 지적합니다. LifelongAgentBench는 데이터베이스, 운영 체제, 지식 그래프의 세 가지 상호 작용 환경에서 기술 기반의 상호 의존적인 작업을 제공하며, 자동 레이블 검증, 재현성 및 모듈식 확장성을 특징으로 합니다. 실험 결과, 기존의 경험 재생(experience replay)은 LLM 에이전트에 대해 무관한 정보와 문맥 길이 제약으로 인해 효과가 제한적임을 보여주며, 그룹 자기 일관성(group self-consistency) 메커니즘이 평생 학습 성능을 크게 향상시킨다는 것을 발견했습니다. 본 연구는 적응력 있고 메모리 기능을 갖춘 LLM 에이전트의 개발을 발전시키는 데 기여할 것으로 기대됩니다.