본 논문은 시각적 감정 분석의 일반화 문제를 해결하기 위해, 심리학적 이론을 바탕으로 한 새로운 대규모 사전 학습 프레임워크 UniEmoX를 제안합니다. UniEmoX는 장면 중심 및 인물 중심의 저수준 이미지 공간 구조 정보를 통합하여 더욱 미묘하고 차별적인 감정 표현을 도출하고, CLIP 모델에서 풍부한 의미 정보를 추출하여 감정 임베딩 표현을 향상시킵니다. 또한 다양한 스타일(만화, 자연, 사실적, 공상과학, 광고)의 이미지를 포함하는 새로운 감정 데이터셋 Emo8을 제시합니다. 여러 벤치마크 데이터셋에서의 실험 결과는 UniEmoX의 효과를 입증합니다.