Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MM-Prompt: Cross-Modal Prompt Tuning for Continual Visual Question Answering

Created by
  • Haebom

저자

Xu Li, Fan Lyu

개요

본 논문은 사전 훈련된 모델(PTM)을 기반으로 하는 지속적 시각 질의응답(CVQA)에서 프롬프트 튜닝을 활용하여 지속적인 다모달 학습을 가능하게 하는 연구에 대해 다룹니다. 기존의 대부분의 방법은 교차 모달 프롬프트를 분리하여 시각적 및 텍스트 프롬프트를 개별적으로 구성하는데, 이는 모달 불균형을 악화시키고 시간이 지남에 따라 성능 저하를 초래합니다. 이 문제를 해결하기 위해 본 논문에서는 교차 모달 프롬프트 쿼리와 교차 모달 프롬프트 복구를 통합하는 새로운 프레임워크인 MM-Prompt를 제안합니다. MM-Prompt의 교차 모달 프롬프트 쿼리는 쿼리 형성 중에 교차 모달 신호를 통합하여 균형 잡힌 프롬프트 선택을 가능하게 하고, 교차 모달 프롬프트 복구는 표현력 변동을 방지하기 위한 정렬 손실의 안내에 따라 반복적인 교차 모달 상호 작용을 통해 공동 프롬프트 재구성을 촉진합니다. 광범위한 실험을 통해 MM-Prompt가 지속적인 학습 과정에서 균형 잡힌 모달 참여를 유지하면서 정확도와 지식 보유 측면에서 이전 접근 방식을 능가함을 보여줍니다.

시사점, 한계점

시사점:
교차 모달 프롬프트 쿼리와 복구를 통한 균형 잡힌 다모달 학습 프레임워크 제시
기존 방법의 모달 불균형 문제 해결 및 성능 향상
지속적 학습 환경에서 높은 정확도와 지식 보유율 달성
한계점:
제안된 방법의 효과는 특정 PTM과 데이터셋에 의존할 수 있음. 다양한 PTM과 데이터셋에 대한 추가적인 실험이 필요함.
정렬 손실을 통한 표현력 변동 방지 전략의 일반화 가능성에 대한 추가적인 연구가 필요함.
실제 응용 분야에서의 성능 평가 및 확장성에 대한 추가적인 연구가 필요함.
👍