본 논문은 사전 훈련된 모델(PTMs)을 기반으로 하는 지속적 시각적 질문 답변(CVQA)에서 프롬프트 튜닝을 활용하여 지속적인 다모달 학습을 가능하게 하는 연구에 대해 다룹니다. 기존의 대부분의 방법들은 시각적 및 텍스트 프롬프트를 개별적으로 구성하는 교차 모달 프롬프트 분리를 채택하여 모달 불균형을 악화시키고 시간이 지남에 따라 성능이 저하되는 문제점을 가지고 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 교차 모달 프롬프트 쿼리와 교차 모달 프롬프트 복구를 통합한 새로운 프레임워크인 MM-Prompt를 제안합니다. MM-Prompt의 교차 모달 프롬프트 쿼리는 쿼리 형성 중 교차 모달 신호를 통합하여 균형 잡힌 프롬프트 선택을 가능하게 하고, 교차 모달 프롬프트 복구는 표현력 변동을 방지하기 위한 정렬 손실에 따라 반복적인 교차 모달 상호 작용을 통해 공동 프롬프트 재구성을 촉진합니다. 광범위한 실험 결과, MM-Prompt는 지속적인 학습 전반에 걸쳐 균형 잡힌 모달 참여를 유지하면서 정확도와 지식 보유 측면에서 기존 방법들을 능가함을 보여줍니다.