본 논문은 복잡한 추론 작업을 수행하는 데 어려움을 겪는 기존의 언어 모델(LM) 및 시각-언어 모델(VLM)의 한계를 해결하기 위해, 다중 모달 및 다국어 실제 세계 지식을 효율적으로 제공하는 외부 메모리 시스템을 제안합니다. 기존의 접근 방식은 이미지와 텍스트 토큰을 긴 시퀀스로 연결하는 반면, 본 논문에서는 밀집된 임베딩의 간결한 집합인 연속 메모리를 사용하여 다중 모달 및 다국어 지식을 더 효과적이고 효율적으로 나타냅니다. 핵심 아이디어는 VLM 자체가 연속 메모리 인코더 역할을 할 수 있다는 것입니다. 이를 통해 복잡한 다중 모달 추론 작업의 성능을 향상시키며, 모델 파라미터의 1.2%와 15.6K의 자체 합성 샘플만을 사용하여 VLM을 메모리 인코더로 미세 조정하는 데이터 및 파라미터 효율적인 방법을 제시합니다. CoMEM이라는 제안된 방법은 임의의 다중 모달 및 다국어 지식을 단 8개의 연속 임베딩으로 인코딩하며, 추론 시 VLM은 고정된 상태를 유지하여 플러그 앤 플레이 방식으로 유연하게 통합될 수 있습니다. 8개의 다중 모달 추론 벤치마크에 대한 광범위한 실험을 통해 본 접근 방식의 효과를 보여줍니다.