MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network
Created by
Haebom
Category
Empty
저자
Vrushank Ahire, Kunal Shah, Mudasir Nazir Khan, Nikhil Pakhale, Lownish Rai Sookha, M. A. Ganaie, Abhinav Dhall
개요
MAVEN (Multi-modal Attention for Valence-Arousal Emotion Network)은 정서의 차원적 모델링을 통한 동적 감정 인식을 위한 새로운 아키텍처입니다. 시각, 청각, 텍스트 모달리티를 6가지 독립적인 어텐션 경로를 가진 양방향 교차 모달 어텐션 메커니즘을 통해 통합하여 모든 모달리티 쌍 간의 포괄적인 상호 작용을 가능하게 합니다. 모달리티별 인코더를 사용하여 동기화된 비디오 프레임, 오디오 세그먼트 및 트랜스크립트에서 풍부한 특징 표현을 추출합니다. 각 모달리티 표현은 다른 모달리티로부터 가중치가 부여된 어텐션을 통해 개선되고, 모달리티별 인코더를 통한 자기 어텐션 개선을 거칩니다. MAVEN은 valence-arousal 값을 직접 예측하는 대신, 정서 둘레 원 모델과 일치하는 극좌표 형태로 감정을 예측합니다. Aff-Wild2 데이터셋에 대한 실험 평가 결과, Concordance Correlation Coefficient (CCC)를 사용하여 성능을 측정했을 때, 대화형 비디오에서 복잡하고 미묘한 감정 표현을 포착하는 우수한 능력을 보여주며, 최첨단(SOTA) 연속 감정 인식 기술을 향상시켰습니다. 코드는 https://github.com/Vrushank-Ahire/MAVEN_8th_ABAW 에서 확인할 수 있습니다.