본 논문은 다중 모달 감정 인식에서 융합 기법의 중요성을 강조하며, 기존의 cross-modal attention 기반 방법들의 한계점(중복된 특징, 상호 보완적인 특징 포착 부족)을 지적합니다. 이를 해결하기 위해 Transformer 기반의 새로운 Adaptive Cross-modal Fusion Network (TACFN)를 제안합니다. TACFN은 자기 주의 메커니즘을 통해 한 모달리티 내에서 특징 선택을 수행하여 효율적인 상호 작용을 가능하게 하고, 모달리티 간 상호 보완적인 정보를 더 잘 포착하기 위해 융합 가중치 벡터를 생성하여 특징 강화를 수행합니다. RAVDESS와 IEMOCAP 데이터셋을 사용한 실험 결과, TACFN은 기존 방법들에 비해 성능 향상을 보이며 최첨단 성능을 달성했습니다. 소스 코드와 모델은 공개되어 있습니다.