대규모 언어 모델(LLM) 에이전트의 핵심 역량인 메모리 능력을 평가하기 위한 새로운 벤치마크, MemoryAgentBench를 소개합니다. 기존 벤치마크는 메모리 에이전트의 상호작용적이고 다단계 특성을 반영하지 못하고, 네 가지 핵심 역량(정확한 검색, 테스트 시간 학습, 장거리 이해, 선택적 망각)을 모두 다루지 못하는 한계를 극복하고자 합니다. MemoryAgentBench는 기존 장문 맥락 데이터셋을 변환하고 새롭게 구성된 데이터셋을 다단계 형식으로 통합하여 메모리 에이전트의 점진적인 정보 처리 특성을 시뮬레이션합니다. 다양한 메모리 에이전트에 대한 평가를 통해 현재 방법론이 모든 역량을 충분히 습득하지 못함을 확인하고, 메모리 메커니즘 연구의 필요성을 강조합니다.