본 논문은 안면 마비 감지를 위한 다중 모달 융합 기반 심층 학습 모델을 제시합니다. MLP 믹서 기반 모델을 사용하여 비정형 데이터(RGB 이미지 또는 얼굴 선분이 표시된 이미지)를 처리하고, 피드포워드 신경망을 사용하여 정형 데이터(얼굴 랜드마크 좌표, 얼굴 표정 특징 또는 수작업 특징)를 처리합니다. 안면 마비 환자 20명과 건강한 피험자 20명의 비디오를 사용하여 다양한 데이터 모달리티의 효과와 다중 모달 융합 기반 접근 방식의 이점을 분석하는 연구에 기여합니다. 다중 모달 융합 모델은 96.00 F1 점수를 달성하여, 수작업 특징만을 사용하여 학습된 피드포워드 신경망(82.80 F1) 및 원시 RGB 이미지를 사용하여 학습된 MLP 믹서 기반 모델(89.00 F1)보다 상당히 높은 성능을 보였습니다.