본 논문은 다중 모달 감정 추론에서 강력한 성능을 보이는 기존의 다중 모달 대규모 언어 모델(MLLM)들이 감정적 신호가 모달리티 간에 일치하지 않는 감정 충돌 상황을 간과하는 문제를 다룹니다. 이를 해결하기 위해, 현실적인 감정 충돌 상황에서 MLLM을 평가하기 위한 새로운 벤치마크인 CA-MER를 제시합니다. CA-MER는 비디오 정렬, 오디오 정렬, 일관성 있는 세 가지 하위 집합으로 구성되며, 각 하위 집합은 하나 또는 모든 모달리티가 실제 감정을 반영합니다. CA-MER 평가 결과, 최첨단 감정 MLLM이 감정 충돌 시 오디오 신호에 과도하게 의존하고 시각적 모달리티의 중요한 단서를 무시하는 경향이 있음을 보여줍니다. 이러한 편향을 완화하기 위해, 모달리티 통합의 균형을 증진시키는 매개변수 효율적인 프레임워크인 MoSEAR을 제안합니다. MoSEAR은 미세 조정 헤드에서 모달리티 편향을 줄이는 규제 게이팅 메커니즘을 갖춘 모달리티 특정 전문가(MoSE)와 추론 중 고정된 백본에서 모달리티 기여의 균형을 재조정하는 어텐션 재할당 메커니즘(AR)의 두 모듈로 구성됩니다. MoSEAR은 감정 충돌을 완화하고 일관된 샘플에 대한 성능을 향상시키는 동시에 오디오와 비주얼 모달리티 간의 트레이드오프 없이 두 가지 주요 장점을 제공합니다. MER2023, EMER, DFEW 및 CA-MER를 포함한 여러 벤치마크에 대한 실험을 통해 MoSEAR이 특히 모달리티 충돌 조건에서 최첨단 성능을 달성함을 보여줍니다.