True Multimodal In-Context Learning Needs Attention to the Visual Context
Created by
Haebom
저자
Shuo Chen, Jianzhe Liu, Zhen Han, Yan Xia, Daniel Cremers, Philip Torr, Volker Tresp, Jindong Gu
개요
본 논문은 다중 모달 대규모 언어 모델(MLLM)의 다중 모달 맥락 내 학습(MICL) 능력 향상에 초점을 맞추고 있다. 기존 MLLM은 시각 정보를 무시하고 텍스트 패턴에 과도하게 의존하여 진정한 다중 모달 적응보다는 단순한 텍스트 모방을 하는 경향이 있다는 문제점을 지적한다. 이를 해결하기 위해, 시각 및 텍스트 토큰 간의 어텐션을 재균형하여 모델이 시각적 맥락에 주목하도록 유도하는 효율적인 미세 조정 전략인 동적 어텐션 재할당(DARA)을 제시한다. 또한, 정확한 작업 완료를 위해 다중 모달 정보, 특히 시각적 콘텐츠의 통합을 명시적으로 요구하는 MICL 전용 데이터셋인 TrueMICL을 제시한다. 실험 결과, 제안된 방법이 진정한 다중 모달 맥락 내 학습 능력을 크게 향상시킨다는 것을 보여준다.
시사점, 한계점
•
시사점:
◦
MLLM의 MICL 성능 향상을 위한 효과적인 미세 조정 전략인 DARA 제시.
◦
시각 정보 통합을 명시적으로 요구하는 MICL 전용 데이터셋 TrueMICL 제시.
◦
TrueMICL 데이터셋을 통해 MLLM의 진정한 다중 모달 맥락 내 학습 능력 평가 가능.
◦
DARA와 TrueMICL의 조합을 통해 MLLM의 다중 모달 맥락 내 학습 능력을 실질적으로 향상시킴을 증명.