본 논문은 대화 내 감정 인식(ERC)의 어려움, 즉 차별적인 증거의 희소성, 국지성, 그리고 여러 모드 간의 비동기성에 주목한다. 이를 해결하기 위해, 감정 핫스팟에 초점을 맞춰 텍스트, 오디오, 비디오에서 발화 단위 핫스팟을 감지하고, Hotspot-Gated Fusion (HGF)을 통해 전역 특징과 융합하며, Routed Mixture-of-Aligners (MoA)를 사용하여 모드를 정렬하는 통합 모델을 제시한다. 또한, 대화 구조를 인코딩하는 교차 모드 그래프를 활용한다. 이 설계는 중요한 구간에 모델링을 집중시키고, 정렬 불일치를 완화하며, 컨텍스트를 보존한다. 표준 ERC 벤치마크에서 강력한 기준선보다 일관된 성능 향상을 보였으며, ablation 연구를 통해 HGF와 MoA의 기여를 확인했다. 결과적으로 핫스팟 중심의 관점이 미래의 다중 모드 학습에 기여할 수 있음을 시사하며, ERC에서의 모드 융합에 대한 새로운 시각을 제시한다.