본 논문은 다중 모드 감정 인식에서 미묘한 감정 차이를 포착하는 특징 추출의 어려움을 해결하기 위해, 청각 및 텍스트 모드 간의 상호 작용과 연결을 이해하는 데 중점을 둔 이중 모드 음성 감정 인식 시스템을 제안합니다. 제안된 방법인 BCAF(Bimodal Connection Attention Fusion)는 상호 작용 연결 네트워크, 이중 모드 어텐션 네트워크, 상관 어텐션 네트워크의 세 가지 주요 모듈로 구성됩니다. 상호 작용 연결 네트워크는 인코더-디코더 구조를 사용하여 모드별 특징을 활용하면서 오디오와 텍스트 간의 모드 연결을 모델링합니다. 이중 모드 어텐션 네트워크는 의미적 보완을 강화하고 모드 내 및 모드 간 상호 작용을 활용합니다. 상관 어텐션 네트워크는 교차 모드 노이즈를 줄이고 오디오와 텍스트 간의 상관 관계를 포착합니다. MELD와 IEMOCAP 데이터셋에 대한 실험 결과, 제안된 BCAF 방법이 기존 최첨단 기준 모델보다 성능이 우수함을 보여줍니다.