MVCL-DAF++: Enhancing Multimodal Intent Recognition via Prototype-Aware Contrastive Alignment and Coarse-to-Fine Dynamic Attention Fusion
Created by
Haebom
저자
Haofeng Huang, Yifei Han, Long Zhang, Bin Li, Yangfan He
개요
MVCL-DAF++는 다중 모달 의도 인식(MMIR)의 약한 의미적 기반과 노이즈 또는 희귀 클래스 조건에서의 낮은 강건성 문제를 해결하기 위해 제안된 모델입니다. 기존 MVCL-DAF에 두 가지 주요 모듈을 추가하여 개선되었습니다. 첫째, 프로토타입 인식 대조 정렬(Prototype-aware contrastive alignment)을 통해 인스턴스를 클래스 수준 프로토타입에 정렬하여 의미적 일관성을 향상시키고, 둘째, 조-세밀 어텐션 융합(Coarse-to-fine attention fusion)을 통해 전역 모달 요약과 토큰 수준 특징을 통합하여 계층적 교차 모달 상호 작용을 수행합니다. MIntRec과 MIntRec2.0 데이터셋에서 MVCL-DAF++는 최첨단 성능을 달성하며, 희귀 클래스 인식에서 각각 +1.05% 및 +4.18% WF1 향상을 보였습니다. 이는 프로토타입 기반 학습과 조-세밀 융합의 강건한 다중 모달 이해에 대한 효과를 보여줍니다. 소스 코드는 https://github.com/chr1s623/MVCL-DAF-PlusPlus 에서 이용 가능합니다.