본 논문은 적응형 인간-컴퓨터 상호작용을 위해 중요한, 인간 감정의 정확한 인식을 목표로 합니다. 동적이고 대화와 유사한 환경에서 발생하는 어려움을 해결하기 위해, 시선 추적 시퀀스, Big Five 성격 특성, 그리고 맥락적 자극 신호를 통합하는 성격-인식 다중 모달 프레임워크를 제시합니다. 73명의 참가자가 CREMA-D 데이터 세트의 음성 포함 클립을 시청하며 시선 추적 신호, 성격 평가 및 감정 평가를 제공했습니다. 신경망 모델은 시간적 시선 동역학을 포착하고 이를 특성 및 자극 정보와 융합하여 SVM 및 기존 연구의 기반 모델보다 일관된 성능 향상을 보였습니다. 연구 결과는 자극 신호가 인지된 감정 예측을 크게 향상시키고, 성격 특성이 체감 감정 인식에 가장 큰 영향을 미치는 것을 보여줍니다.