En este artículo, proponemos un novedoso marco de preentrenamiento a gran escala, UniEmoX, basado en teorías psicológicas para resolver el problema de generalización del análisis visual de sentimientos. UniEmoX integra información de estructura espacial de imágenes de bajo nivel, centrada en la escena y en la persona, para obtener expresiones emocionales más sutiles y discriminantes, y extrae información semántica rica de los modelos CLIP para mejorar las representaciones de integración de emociones. También presentamos un nuevo conjunto de datos de emociones, Emo8, que contiene imágenes de diversos estilos (dibujos animados, naturaleza, realista, ciencia ficción y publicidad). Los resultados experimentales en múltiples conjuntos de datos de referencia demuestran la eficacia de UniEmoX.