Este artículo explora el uso del ajuste de indicaciones para permitir el aprendizaje multimodal continuo en la respuesta visual continua a preguntas (CVQA) basada en modelos pre-entrenados (PTMs). La mayoría de los métodos existentes separan las indicaciones intermodales y construyen indicaciones visuales y textuales por separado, lo que exacerba el desequilibrio modal y conduce a una degradación del rendimiento con el tiempo. Para abordar este problema, proponemos MM-Prompt, un nuevo marco que integra la consulta de indicaciones intermodales y la recuperación de indicaciones intermodales. La consulta de indicaciones intermodales de MM-Prompt permite una selección equilibrada de indicaciones al incorporar claves intermodales durante la formación de la consulta, mientras que la recuperación de indicaciones intermodales facilita la reconstrucción conjunta de indicaciones a través de interacciones intermodales iterativas guiadas por la pérdida de alineación para prevenir fluctuaciones de expresividad. Amplios experimentos demuestran que MM-Prompt supera a los enfoques previos en términos de precisión y retención de conocimiento, a la vez que mantiene una participación modal equilibrada durante el aprendizaje continuo.