본 논문은 다중 모달 의도 인식(MIR)에서 다양한 모달리티(언어 텍스트, 신체 제스처, 어조 등)를 통합하여 인간의 의도를 인식하는 것을 목표로 합니다. 기존 방법들은 모달리티 간의 내적 연결을 충분히 포착하지 못하고 의도의 의미적 표현을 간과하는 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 본 논문은 의미 동기화를 통한 앵커 기반 다중 모달 임베딩(A-MESS) 프레임워크를 제시합니다. 앵커 기반 다중 모달 임베딩(A-ME) 모듈을 설계하여 앵커 기반 임베딩 융합 메커니즘을 통해 다중 모달 입력을 통합하고, 삼중항 대조 학습 파이프라인을 사용하는 의미 동기화(SS) 전략을 개발하여 대규모 언어 모델이 생성한 레이블 설명과 다중 모달 표현을 동기화하는 과정을 최적화합니다. 포괄적인 실험 결과, A-MESS는 최첨단 성능을 달성하고 다중 모달 표현 및 하위 작업에 대한 상당한 통찰력을 제공함을 보여줍니다.