Este artículo presenta un enfoque novedoso para abordar los desafíos de la adquisición de imágenes multimodales, a pesar de los avances significativos en el uso de imágenes médicas multimodales para el diagnóstico de enfermedades oftálmicas. Específicamente, para abordar el desequilibrio entre las fotografías de fondo de ojo, relativamente económicas y de fácil acceso, y las costosas imágenes de OCT, proponemos un marco multimodal no pareado, \UOPSL. \UOPSL utiliza información espacial previa (sitios de predilección) obtenida de imágenes de OCT para mejorar el reconocimiento de enfermedades mediante imágenes de fondo de ojo. Mediante el aprendizaje contrastivo en imágenes de OCT y fondo de ojo no pareadas a gran escala, \UOPSL aprende patrones de ubicación de lesiones en el espacio latente de OCT y utiliza esta información para realizar la clasificación de enfermedades únicamente a partir de imágenes de fondo de ojo. Informamos que nuestro enfoque supera a los métodos existentes en nueve conjuntos de datos diversos que abarcan 28 categorías clave.