Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Multimodal Fusion Model Leveraging MLP Mixer and Handcrafted Features-based Deep Learning Networks for Facial Palsy Detection

Created by
  • Haebom
Category
Empty

저자

Heng Yim Nicole Oo, Min Hun Lee, Jeong Hoon Lim

개요

본 논문은 안면 마비 감지를 위한 다중 모달 융합 기반 심층 학습 모델을 제시합니다. MLP 믹서 기반 모델을 사용하여 비정형 데이터(RGB 이미지 또는 얼굴 선분이 표시된 이미지)를 처리하고, 피드포워드 신경망을 사용하여 정형 데이터(얼굴 랜드마크 좌표, 얼굴 표정 특징 또는 수작업 특징)를 처리합니다. 안면 마비 환자 20명과 건강한 피험자 20명의 비디오를 사용하여 다양한 데이터 모달리티의 효과와 다중 모달 융합 기반 접근 방식의 이점을 분석하는 연구에 기여합니다. 다중 모달 융합 모델은 96.00 F1 점수를 달성하여, 수작업 특징만을 사용하여 학습된 피드포워드 신경망(82.80 F1) 및 원시 RGB 이미지를 사용하여 학습된 MLP 믹서 기반 모델(89.00 F1)보다 상당히 높은 성능을 보였습니다.

시사점, 한계점

시사점:
다중 모달 융합 기반 심층 학습 모델이 안면 마비 감지에 효과적임을 보여줌.
기존의 수작업 특징 기반 방법보다 높은 정확도 달성.
다양한 데이터 모달리티를 활용하여 안면 마비 감지 성능 향상 가능성 제시.
한계점:
데이터셋의 크기가 제한적임 (총 40명의 피험자).
다양한 인종과 연령대의 피험자를 포함하지 않아 일반화 성능에 대한 검증 필요.
실제 임상 환경에서의 성능 평가가 부족함.
👍