본 논문은 감정 모방 강도(EMI) 추정을 위한 이중 단계 교차 모드 정렬 프레임워크를 제안합니다. 기존 방법의 한계인 교차 모드 시너지 활용 부족, 노이즈 민감성, 세밀한 정렬 기능 제약을 해결하기 위해, CLIP 기반의 비전-텍스트 및 오디오-텍스트 대조 학습 네트워크를 통해 모드 분리 사전 훈련을 수행하는 1단계와, TCN 및 gated bidirectional LSTM을 통합하여 얼굴 표정의 거시적 진화 패턴과 음향 특징의 국소적 역동성을 포착하는 시간 인식 동적 융합 모듈을 포함하는 2단계로 구성됩니다. 또한 폐색 및 노이즈 하에서 모드 보상을 위한 차별 가능한 가중치 할당을 가능하게 하는 새로운 품질 기반 융합 전략을 제시합니다. Hume-Vidmimic2 데이터셋 실험 결과, 검증 세트에서 6가지 감정 차원에 걸쳐 평균 피어슨 상관 계수 0.51을 달성했으며, 테스트 세트에서는 0.68을 달성하여 제8회 ABAW 경진대회 EMI Challenge Track에서 2위를 차지했습니다.