本論文は、視覚的感情分析の一般化問題を解決するために、心理学的理論に基づいた新しい大規模事前学習フレームワークUniEmoXを提案します。 UniEmoXはシーン中心と人物中心の低レベル画像空間構造情報を統合し、より微妙で差別的な感情表現を導き出し、CLIPモデルから豊富な意味情報を抽出して感情埋め込み表現を向上させます.また、さまざまなスタイル(漫画、自然、写実的、ファンタジー、広告)のイメージを含む新しい感情データセットEmo8も紹介します。複数のベンチマークデータセットでの実験結果は、UniEmoXの効果を実証しています。