본 논문은 다중 모달 감정 인식의 어려움을 해결하기 위해, 오디오와 텍스트 모달리티 간의 상호 작용과 연결을 효과적으로 모델링하는 Bimodal Connection Attention Fusion (BCAF) 방법을 제안합니다. BCAF는 상호 작용 연결 네트워크, 양모달 주의 네트워크, 상관 주의 네트워크의 세 가지 주요 모듈로 구성됩니다. 상호 작용 연결 네트워크는 인코더-디코더 구조를 사용하여 모달리티 특징을 활용하면서 오디오와 텍스트 간의 모달리티 연결을 모델링합니다. 양모달 주의 네트워크는 의미적 보완을 강화하고 모달 내 및 모달 간 상호 작용을 활용합니다. 상관 주의 네트워크는 교차 모달 노이즈를 줄이고 오디오와 텍스트 간의 상관 관계를 포착합니다. MELD와 IEMOCAP 데이터셋에서의 실험 결과, 제안된 BCAF 방법이 기존 최첨단 기준 모델보다 성능이 우수함을 보여줍니다.