본 연구는 8th Workshop and Competition on Affective & Behavior Analysis in-the-wild의 일환으로 진행된 행동적 모호성/주저함(BAH) 인식 과제와 감정 모방 강도(EMI) 추정 과제에 대한 방법론을 제시합니다. 대규모 팟캐스트 데이터셋으로 사전 훈련된 Wav2Vec 2.0 모델을 사용하여 언어적 및 준언어적 정보를 모두 포착하는 다양한 오디오 특징을 추출합니다. Wav2Vec 2.0에서 파생된 valence-arousal-dominance (VAD) 모듈, BERT 유사 인코더, 그리고 Vision Transformer (ViT)를 통합하고, 시간적 모델링을 위해 LSTM 아키텍처를 사용합니다. 텍스트 및 비주얼 모달리티를 통합하여 의미론적 내용이 중요한 문맥적 단서를 제공하고, 음성의 의미가 음향적 특징보다 더 중요한 통찰력을 제공한다는 점을 강조합니다. 비주얼 모달리티의 융합은 텍스트 모달리티를 더 정확하게 해석하는 데 도움이 됩니다. 이러한 결합된 접근 방식은 기준 방법보다 성능을 크게 향상시킵니다.