본 논문은 감정 모방 강도(EMI) 추정을 위한 이중 단계 교차 모드 정렬 프레임워크를 제안합니다. 기존 방법들의 모드 시너지 효과 활용 부족, 노이즈 민감성, 세밀한 정렬 기능 제한 등의 한계를 극복하기 위해, 개선된 CLIP 아키텍처 기반의 비전-텍스트 및 오디오-텍스트 대조 학습 네트워크를 구축하여 모드 분리 사전 훈련을 통해 특징 공간에서 초기 정렬을 달성합니다. 이후, 시간적 합성곱 네트워크(TCN)와 게이트 양방향 LSTM을 결합한 시간 인식 동적 융합 모듈을 설계하여 얼굴 표정의 거시적 진화 패턴과 음향 특징의 국소적 역동성을 각각 포착합니다. 차별 가능한 가중치 할당을 통해 폐색 및 노이즈 시나리오에서 모드 보상을 가능하게 하는 품질 기반 모드 융합 전략을 도입하는 것이 혁신적인 부분입니다. Hume-Vidmimic2 데이터셋에서의 실험 결과, 제안된 방법은 6가지 감정 차원에 걸쳐 평균 피어슨 상관 계수 0.35를 달성하여 최고 기준선보다 40% 향상된 성능을 보였습니다. 추가적인 절제 연구는 이중 단계 훈련 전략과 동적 융합 메커니즘의 효과를 검증합니다.