LLM 시스템의 성능 향상을 위해 데이터, 파라미터, 테스트 시간 계산을 확장하는 방법의 한계에 도달함에 따라, 기억 구성과 지속적인 학습 프레임워크를 LLM 시스템에 적용하는 연구가 중요해지고 있음. 기존 LLM 기억 평가 벤치마크는 긴 형식의 입력을 사용하는 동질적인 독해 작업에 중점을 두어, 서비스 시간 동안 축적된 사용자 피드백으로부터 학습하는 능력을 테스트하지 못함. 이에 따라, 사용자 피드백 시뮬레이션 프레임워크와 여러 도메인, 언어, 작업 유형을 포괄하는 포괄적인 벤치마크를 제안하여 LLM 시스템의 지속적인 학습 능력을 평가. 실험 결과, 최신 기반 모델의 효과와 효율성이 여전히 부족하며, 이 벤치마크가 LLM 기억 및 최적화 알고리즘 연구에 기여할 것으로 기대함.