본 논문은 사전 훈련된 모델(PTM)을 기반으로 하는 지속적 시각 질의응답(CVQA)에서 프롬프트 튜닝을 활용하여 지속적인 다모달 학습을 가능하게 하는 연구에 대해 다룹니다. 기존의 대부분의 방법은 교차 모달 프롬프트를 분리하여 시각적 및 텍스트 프롬프트를 개별적으로 구성하는데, 이는 모달 불균형을 악화시키고 시간이 지남에 따라 성능 저하를 초래합니다. 이 문제를 해결하기 위해 본 논문에서는 교차 모달 프롬프트 쿼리와 교차 모달 프롬프트 복구를 통합하는 새로운 프레임워크인 MM-Prompt를 제안합니다. MM-Prompt의 교차 모달 프롬프트 쿼리는 쿼리 형성 중에 교차 모달 신호를 통합하여 균형 잡힌 프롬프트 선택을 가능하게 하고, 교차 모달 프롬프트 복구는 표현력 변동을 방지하기 위한 정렬 손실의 안내에 따라 반복적인 교차 모달 상호 작용을 통해 공동 프롬프트 재구성을 촉진합니다. 광범위한 실험을 통해 MM-Prompt가 지속적인 학습 과정에서 균형 잡힌 모달 참여를 유지하면서 정확도와 지식 보유 측면에서 이전 접근 방식을 능가함을 보여줍니다.