본 연구는 대화와 같은 역동적인 상황에서 정확한 감정 인식을 향상시키기 위해 안구 추적 데이터, 시간적 역동성, 성격 특성을 통합하는 방법을 제시합니다. 73명의 참가자들이 CREMA-D 데이터셋의 짧은 영상을 시청하는 동안 안구 추적 신호(동공 크기, 고정 패턴), 빅파이브 성격 평가, 자가 보고된 감정 상태를 기록했습니다. 신경망 모델은 자극 감정 레이블을 포함한 다양한 입력을 결합하여 기존 최고 성능보다 향상된 결과를 보였습니다. 특히, 지각된 valence 예측은 0.76의 macro F1-score에 도달했으며, 성격 특성과 자극 정보를 통합한 모델은 느껴지는 감정 정확도에서 상당한 향상을 보였습니다. 이러한 결과는 생리적, 개인적, 상황적 요인을 통합하여 감정 표현의 주관성과 복잡성을 해결하는 이점을 강조합니다. 미묘한 내적 상태를 포착하는 데 사용자별 데이터의 역할을 검증하는 것을 넘어, 본 연구 결과는 미래의 감정 컴퓨팅 및 인간-에이전트 시스템 설계에 정보를 제공하여 실제 상호 작용에서 보다 적응적이고 개인 간 차이를 고려하는 감정 지능을 위한 길을 열어줍니다.