Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Exploring a Multimodal Fusion-based Deep Learning Network for Detecting Facial Palsy

Created by
  • Haebom
Category
Empty

저자

Heng Yim Nicole Oo, Min Hun Lee, Jeong Hoon Lim

개요

본 논문은 안면 마비 감지를 위한 다중 모드 융합 기반 심층 학습 모델을 제시합니다. 비구조화 데이터(얼굴 선분이 포함된 이미지 프레임)와 구조화 데이터(얼굴 표정 특징)를 활용하여 21명의 안면 마비 환자 비디오를 분석합니다. 실험 결과, 다양한 데이터 모드(RGB 이미지, 얼굴 선분 이미지, 얼굴 랜드마크 좌표, 얼굴 표정 특징) 중 얼굴 표정 특징을 사용한 피드포워드 신경망이 76.22%의 정확도를, 얼굴 선분 이미지를 사용한 ResNet 기반 모델이 83.47%의 재현율을 달성했습니다. 얼굴 선분 이미지와 얼굴 표정 특징을 결합한 다중 모드 융합 모델은 정확도를 77.05%로 소폭 향상시켰으나 재현율은 감소했습니다.

시사점, 한계점

시사점:
안면 마비 감지를 위한 다중 모드 융합 기반 심층 학습 모델의 효용성을 제시.
다양한 데이터 모드의 성능 비교를 통해 최적의 데이터 조합을 제시.
기존의 주관적인 임상 평가의 한계를 극복할 수 있는 자동화된 안면 마비 감지 시스템 개발 가능성 제시.
한계점:
데이터셋의 규모가 작음 (21명의 환자).
다중 모드 융합 모델이 정확도는 향상시켰으나 재현율은 감소시킴. 모델 성능 개선을 위한 추가 연구 필요.
실제 임상 환경에서의 일반화 성능 검증 필요.
👍