SUMMER은 대화에서의 다중 모달 감정 인식(MERC)을 위한 새로운 이종 다중 모달 통합 프레임워크입니다. 텍스트, 오디오 및 비디오 모달리티를 활용하여 감정 상태를 식별하며, 지능형 대화 시스템 및 여론 분석에 필수적입니다. 기존 방법들은 이종 모달리티의 직접적인 융합에 중점을 두어 모달리티 이질성과 지도 부족으로 인한 다중 모달 학습의 혼란을 겪는 경우가 많았습니다. SUMMER은 Sparse Dynamic Mixture of Experts (SDMoE), Hierarchical Cross-Modal Fusion (HCMF), Interactive Knowledge Distillation (IKD)의 세 가지 주요 구성 요소를 통해 이러한 문제를 해결합니다. SDMoE는 동적인 토큰 간 상호 작용을 포착하고, HCMF는 이종 모달리티의 효과적인 융합을 수행하며, IKD는 사전 훈련된 단일 모달 교사 모델을 사용하여 잠재 공간과 로짓 공간에서 다중 모달 융합을 안내합니다. IEMOCAP과 MELD 데이터셋에서의 실험 결과, SUMMER은 최첨단 방법들을 능가하며, 특히 소수 감정과 의미적으로 유사한 감정 인식에서 우수한 성능을 보입니다.