Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

Created by
  • Haebom
Category
Empty

저자

Jun Yu, Lingsi Zhu, Yanjun Chi, Yunxiang Zhang, Yang Zheng, Yongqi Wang, Xilong Lu

개요

본 논문은 감정 모방 강도(EMI) 추정을 위한 이중 단계 교차 모달 정렬 프레임워크를 제안합니다. 기존 방법의 한계인 모달 시너지 효과의 불충분한 활용, 노이즈 민감성, 제한적인 세분화된 정렬 기능을 해결하기 위해, 향상된 CLIP 아키텍처 기반의 비전-텍스트 및 오디오-텍스트 대조 학습 네트워크를 구축하여 모달 분리 전훈련을 통해 특징 공간에서 초기 정렬을 달성합니다. 이후, 시간적 합성곱 네트워크(TCN)와 게이트 양방향 LSTM을 결합한 시간 인식 동적 융합 모듈을 설계하여 얼굴 표정의 거시적 진화 패턴과 음향 특징의 국소적 역동성을 각각 포착합니다. 차별 가능한 가중치 할당을 통해 폐색 및 잡음 시나리오에서 모달 보상을 가능하게 하는 품질 기반 모달 융합 전략을 도입하는 것이 혁신적인 부분입니다. Hume-Vidmimic2 데이터셋에서의 실험 결과, 제안된 방법은 6가지 감정 차원에서 평균 피어슨 상관 계수 0.35를 달성하여 최고 기준선보다 40% 향상된 성능을 보였습니다. 추가적인 절제 연구는 이중 단계 훈련 전략과 동적 융합 메커니즘의 효과를 검증하여 개방 환경에서의 세분화된 감정 분석을 위한 새로운 기술 경로를 제공합니다.

시사점, 한계점

시사점:
개선된 CLIP 아키텍처 기반의 대조 학습을 통한 효과적인 교차 모달 정렬 달성.
시간 인식 동적 융합 모듈을 통한 얼굴 표정과 음향 특징의 효과적인 통합.
품질 기반 모달 융합 전략을 통한 폐색 및 잡음에 대한 강건성 확보.
Hume-Vidmimic2 데이터셋에서 기존 최고 성능 대비 40% 향상된 성능 달성.
개방 환경에서의 세분화된 감정 분석을 위한 새로운 기술 경로 제시.
한계점:
Hume-Vidmimic2 데이터셋에 대한 의존성. 다른 데이터셋으로의 일반화 성능 검증 필요.
0.35의 상관 계수는 아직 완벽한 수준이 아니며, 향후 성능 개선 여지가 존재.
제안된 방법의 계산 비용 및 복잡도에 대한 분석 부족.
다양한 감정 표현 및 문화적 차이에 대한 고려 부족.
👍