본 논문은 멀티모달 대규모 언어 모델에서 추론 기반 멀티모달 감정 이해의 신뢰성을 향상시키기 위해 설계된 Modality-Importance-Guided Reasoning (MIGR) 프레임워크를 제시한다. 기존 방법론들이 추론 드리프트(models gradually rely on their own generated text instead of multimodal evidence) 및 과도하게 시각적 단서에 의존하는 설명 생성 문제를 해결하고자, 감정 지배적인 모달리티를 식별하는 Modality Importance (MI) 메커니즘을 도입하여 추론 순서를 재구성한다. MIGR은 모달리티 정렬된 지도 학습과 모달리티 인식 보상 최적화의 두 단계로 구성되며, 감정적으로 기반하고, 인과적으로 관련 있으며, 일관성을 유지하는 설명을 생성하도록 모델을 장려한다.