Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MM-Prompt: Cross-Modal Prompt Tuning for Continual Visual Question Answering

Created by
  • Haebom

저자

Xu Li, Fan Lyu

개요

본 논문은 사전 훈련된 모델(PTMs)을 기반으로 하는 지속적 시각적 질문 답변(CVQA)에서 프롬프트 튜닝을 활용하여 지속적인 다모달 학습을 가능하게 하는 연구에 대해 다룹니다. 기존의 대부분의 방법들은 시각적 및 텍스트 프롬프트를 개별적으로 구성하는 교차 모달 프롬프트 분리를 채택하여 모달 불균형을 악화시키고 시간이 지남에 따라 성능이 저하되는 문제점을 가지고 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 교차 모달 프롬프트 쿼리와 교차 모달 프롬프트 복구를 통합한 새로운 프레임워크인 MM-Prompt를 제안합니다. MM-Prompt의 교차 모달 프롬프트 쿼리는 쿼리 형성 중 교차 모달 신호를 통합하여 균형 잡힌 프롬프트 선택을 가능하게 하고, 교차 모달 프롬프트 복구는 표현력 변동을 방지하기 위한 정렬 손실에 따라 반복적인 교차 모달 상호 작용을 통해 공동 프롬프트 재구성을 촉진합니다. 광범위한 실험 결과, MM-Prompt는 지속적인 학습 전반에 걸쳐 균형 잡힌 모달 참여를 유지하면서 정확도와 지식 보유 측면에서 기존 방법들을 능가함을 보여줍니다.

시사점, 한계점

시사점:
교차 모달 프롬프트 분리의 문제점을 해결하여 지속적 시각적 질문 답변(CVQA)의 성능 향상에 기여.
MM-Prompt 프레임워크를 통해 모달 불균형을 완화하고 지식 보유율을 높임.
교차 모달 프롬프트 쿼리 및 복구 전략을 통해 더욱 효과적인 지속적 다모달 학습 가능성 제시.
한계점:
MM-Prompt의 성능 향상이 특정 데이터셋이나 모델에 국한될 가능성.
정렬 손실을 이용한 표현력 변동 방지 전략의 일반성 및 효율성에 대한 추가적인 연구 필요.
다양한 유형의 다모달 데이터와 복잡한 질문에 대한 MM-Prompt의 일반화 성능 검증 필요.
👍