[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

True Multimodal In-Context Learning Needs Attention to the Visual Context

Created by
  • Haebom

저자

Shuo Chen, Jianzhe Liu, Zhen Han, Yan Xia, Daniel Cremers, Philip Torr, Volker Tresp, Jindong Gu

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 다중 모달 맥락 내 학습(MICL) 능력 향상에 초점을 맞추고 있다. 기존 MLLM은 시각 정보를 무시하고 텍스트 패턴에 과도하게 의존하여 진정한 다중 모달 적응보다는 단순한 텍스트 모방을 하는 경향이 있다는 문제점을 지적한다. 이를 해결하기 위해, 시각 및 텍스트 토큰 간의 어텐션을 재균형하여 모델이 시각적 맥락에 주목하도록 유도하는 효율적인 미세 조정 전략인 동적 어텐션 재할당(DARA)을 제시한다. 또한, 정확한 작업 완료를 위해 다중 모달 정보, 특히 시각적 콘텐츠의 통합을 명시적으로 요구하는 MICL 전용 데이터셋인 TrueMICL을 제시한다. 실험 결과, 제안된 방법이 진정한 다중 모달 맥락 내 학습 능력을 크게 향상시킨다는 것을 보여준다.

시사점, 한계점

시사점:
MLLM의 MICL 성능 향상을 위한 효과적인 미세 조정 전략인 DARA 제시.
시각 정보 통합을 명시적으로 요구하는 MICL 전용 데이터셋 TrueMICL 제시.
TrueMICL 데이터셋을 통해 MLLM의 진정한 다중 모달 맥락 내 학습 능력 평가 가능.
DARA와 TrueMICL의 조합을 통해 MLLM의 다중 모달 맥락 내 학습 능력을 실질적으로 향상시킴을 증명.
한계점:
DARA 및 TrueMICL의 일반화 성능에 대한 추가적인 연구 필요.
더욱 다양하고 복잡한 시각 정보를 포함하는 데이터셋으로의 확장 필요.
제안된 방법의 계산 비용 및 효율성에 대한 추가적인 분석 필요.
👍