Vision-Language Models (VLMs)의 복잡한 시각적 작업 성능 저하 문제를 해결하기 위해, 짧은 시각적 기억과 긴 의미적 기억을 결합한 VisMem 프레임워크를 제안합니다. VisMem은 VLMs에 동적 잠재 시각 기억을 제공하며, 미세한 시각적 유지를 위한 단기 모듈과 추상적인 의미 통합을 위한 장기 모듈을 포함합니다. 이 프레임워크는 추론 및 생성 과정에서 시각적 충실도와 의미적 일관성을 유지하며, 다양한 시각적 벤치마크에서 기존 모델 대비 11.8%의 성능 향상을 보였습니다.