본 논문은 다중 모달 감정 인식에서 미묘한 감정 차이를 포착하는 특징 추출의 어려움을 해결하기 위해, 오디오와 텍스트 모달리티 간의 상호 작용과 연결을 이해하는 데 중점을 둔 이모션 인식 시스템을 제안합니다. Bimodal Connection Attention Fusion (BCAF) 방법론은 상호 작용 연결 네트워크, 양모달 주의 네트워크, 상관 주의 네트워크의 세 가지 주요 모듈로 구성됩니다. 상호 작용 연결 네트워크는 인코더-디코더 구조를 사용하여 모달리티 특징을 활용하면서 오디오와 텍스트 간의 모달리티 연결을 모델링합니다. 양모달 주의 네트워크는 의미적 보완을 강화하고 모달 내 및 모달 간 상호 작용을 활용합니다. 상관 주의 네트워크는 교차 모달 노이즈를 줄이고 오디오와 텍스트 간의 상관 관계를 포착합니다. MELD 및 IEMOCAP 데이터셋에서의 실험 결과, 제안된 BCAF 방법론이 기존 최첨단 기준 모델보다 우수한 성능을 보임을 입증합니다.