본 논문은 감정 모방 강도(EMI) 추정을 위한 이중 단계 교차 모달 정렬 프레임워크를 제안합니다. 기존 방법의 한계인 모달 시너지 효과의 불충분한 활용, 노이즈 민감성, 제한적인 세분화된 정렬 기능을 해결하기 위해, 향상된 CLIP 아키텍처 기반의 비전-텍스트 및 오디오-텍스트 대조 학습 네트워크를 구축하여 모달 분리 전훈련을 통해 특징 공간에서 초기 정렬을 달성합니다. 이후, 시간적 합성곱 네트워크(TCN)와 게이트 양방향 LSTM을 결합한 시간 인식 동적 융합 모듈을 설계하여 얼굴 표정의 거시적 진화 패턴과 음향 특징의 국소적 역동성을 각각 포착합니다. 차별 가능한 가중치 할당을 통해 폐색 및 잡음 시나리오에서 모달 보상을 가능하게 하는 품질 기반 모달 융합 전략을 도입하는 것이 혁신적인 부분입니다. Hume-Vidmimic2 데이터셋에서의 실험 결과, 제안된 방법은 6가지 감정 차원에서 평균 피어슨 상관 계수 0.35를 달성하여 최고 기준선보다 40% 향상된 성능을 보였습니다. 추가적인 절제 연구는 이중 단계 훈련 전략과 동적 융합 메커니즘의 효과를 검증하여 개방 환경에서의 세분화된 감정 분석을 위한 새로운 기술 경로를 제공합니다.