En este artículo, proponemos un sistema de memoria externa que proporciona eficientemente conocimiento multimodal y multilingüe del mundo real para abordar las limitaciones de los modelos de lenguaje (LM) y los modelos visuales de lenguaje (VLM) existentes, que presentan dificultades para realizar tareas de inferencia complejas. Mientras que los enfoques existentes concatenan imágenes y tokens de texto en secuencias largas, en este artículo utilizamos memoria continua, un conjunto compacto de incrustaciones densas, para representar el conocimiento multimodal y multilingüe de forma más eficaz y eficiente. La idea clave es que la propia VLM puede actuar como un codificador de memoria continua. Esto mejora el rendimiento de las tareas complejas de inferencia multimodal, y presentamos un método eficiente en el uso de datos y parámetros para ajustar la VLM como codificador de memoria utilizando solo el 1,2 % de los parámetros del modelo y 15,6 000 muestras autosintetizadas. El método propuesto, denominado CoMEM, codifica conocimiento multimodal y multilingüe arbitrario en tan solo ocho incrustaciones continuas, y la VLM permanece fija durante la inferencia, lo que permite su integración flexible de forma inmediata. Demostramos la eficacia de nuestro enfoque a través de experimentos exhaustivos en ocho puntos de referencia de inferencia multimodal.