Sign In

When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

Created by
  • Haebom
Category
Empty

저자

Zhuoran Zhang, Tengyue Wang, Xilin Gong, Yang Shi, Haotian Wang, Di Wang, Lijie Hu

개요

본 논문은 멀티모달 대규모 언어 모델(MLLM)이 상반된 정보를 처리하는 방식인 '모달리티 팔로잉(modality following)' 현상을 연구한다. 기존 연구는 거시적인 데이터셋 수준의 통계로 이를 분석했지만, 모델의 단일 모달 추론에 대한 신뢰도의 영향을 간과했다. 본 연구는 모달리티 팔로잉을 '상대적 추론 불확실성(단일 모달 예측 간의 신뢰도 차이)'과 '내재적 모달리티 선호도(불확실성이 균형을 이룰 때 모델의 안정적인 편향)'라는 두 가지 핵심 요소로 분해하는 새로운 프레임워크를 제시한다. 시각 및 텍스트 입력의 추론 난이도를 체계적으로 변화시키는 제어 가능한 데이터셋을 구축하여, 엔트로피를 불확실성 지표로 사용하여 상대적 불확실성이 증가함에 따라 특정 모달리티를 따르는 확률이 단조 감소한다는 보편적 법칙을 발견했다. 또한, 모델이 두 모달리티를 비슷한 확률로 따르는 지점인 '균형점'을 제시하여 모델의 내재적 선호도를 측정하는 새로운 방법을 제안한다. 층별 예측 분석을 통해 모호한 영역에서 모델이 층별로 모달리티를 오가며 나타내는 내부 메커니즘을 밝혀냈다.

시사점, 한계점

시사점:
모달리티 팔로잉 현상을 상대적 추론 불확실성과 내재적 모달리티 선호도라는 두 가지 핵심 요소로 분해하는 새로운 프레임워크 제시.
상대적 불확실성과 모달리티 팔로잉 확률 간의 관계에 대한 보편적 법칙 발견.
모델의 내재적 모달리티 편향을 측정하는 새로운 지표인 '균형점' 제안.
층별 예측 분석을 통해 모달리티 팔로잉의 내부 메커니즘에 대한 통찰력 제공.
MLLM의 충돌하는 정보 해결 방식을 정량적으로 분석하고, 메커니즘적 통찰력을 제공.
한계점:
논문에 구체적인 한계점 언급 없음. (Abstract 내용만으로 판단)
👍