WorldMM은 장시간 비디오 이해의 어려움을 해결하기 위해 개발된 새로운 다중 모달 메모리 에이전트입니다. WorldMM은 텍스트 및 시각적 표현을 모두 포함하는 여러 보완적 메모리를 구축하고 검색합니다. 특히, 사건 정보를 다중 시간적 규모로 색인화하는 에피소드 메모리, 고수준 개념 지식을 지속적으로 업데이트하는 의미 메모리, 장면의 세부 정보를 보존하는 시각 메모리를 사용합니다. 쿼리에 따라 가장 관련성이 높은 메모리 소스를 선택하고 여러 시간적 세분성을 활용하는 적응형 검색 에이전트를 통해 작동합니다. WorldMM은 기존 장시간 비디오 질의응답 벤치마크에서 기존 최고 성능 모델보다 평균 8.4% 향상된 성능을 보여주었습니다.