본 논문은 다양한 모달리티(시각, 청각, 텍스트)를 통합하여 동적인 감정 인식을 수행하는 MAVEN(Multi-modal Attention for Valence-Arousal Emotion Network) 모델을 제안합니다. 기존의 valence와 arousal을 개별적으로 예측하는 방식과 달리, Russell의 circumplex 모델을 기반으로 극좌표계에서 감정을 예측합니다. 양방향 교차 모달 어텐션 메커니즘을 통해 각 모달리티의 특징을 효과적으로 통합하고, Aff-Wild2 데이터셋에서 ResNet-50 기준 모델보다 향상된 CCC(concordance correlation coefficient) 0.3061을 달성했습니다. 특히, 대화형 비디오에서 미묘하고 일시적인 감정 표현을 포착하는 다단계 아키텍처를 사용하여 실제 상황에서의 감정 인식 성능을 개선합니다. 소스 코드는 Github에서 공개됩니다.