Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Xinlei Yu, Chengming Xu, Guibin Zhang, Zhangquan Chen, Yudong Zhang, Yongbo He, Peng-Tao Jiang, Jiangning Zhang, Xiaobin Hu, Shuicheng Yan

개요

Vision-Language Models (VLMs)의 복잡한 시각적 작업 성능 저하 문제를 해결하기 위해, 짧은 시각적 기억과 긴 의미적 기억을 결합한 VisMem 프레임워크를 제안합니다. VisMem은 VLMs에 동적 잠재 시각 기억을 제공하며, 미세한 시각적 유지를 위한 단기 모듈과 추상적인 의미 통합을 위한 장기 모듈을 포함합니다. 이 프레임워크는 추론 및 생성 과정에서 시각적 충실도와 의미적 일관성을 유지하며, 다양한 시각적 벤치마크에서 기존 모델 대비 11.8%의 성능 향상을 보였습니다.

시사점, 한계점

시사점:
인간의 인지 기억 이론을 바탕으로 VLMs의 성능 향상을 위한 새로운 프레임워크 제시.
단기 및 장기 기억 모듈을 통해 시각적 정보 처리의 효율성 증대.
다양한 시각적 벤치마크에서 우수한 성능 입증.
latent-space memory enhancement를 위한 새로운 패러다임 제시.
코드 공개를 통해 연구의 재현 및 활용 가능성 확보.
한계점:
논문 자체에서 명시된 한계점은 없음. (abstract 내용만 포함)
👍