Este artículo presenta HESCAPE, un referente a gran escala para la evaluación de métodos de aprendizaje multimodal que aprovechan tanto imágenes de morfología tisular como datos de expresión génica en transcriptómica espacial. A partir de un conjunto de datos de órganos completos, compuesto por seis paneles genéticos y 54 donantes, evaluamos sistemáticamente codificadores de imágenes y expresión génica de vanguardia mediante diversas estrategias de preentrenamiento y evaluamos su eficacia en dos tareas posteriores: clasificación de mutaciones génicas y predicción de la expresión génica. Este estudio demuestra que los codificadores de expresión génica son un determinante clave de un alineamiento robusto de la expresión, ya que los modelos genéticos preentrenados con datos de transcriptómica espacial superan a los modelos entrenados sin datos espaciales y a los enfoques de referencia simples. Sin embargo, evaluaciones posteriores revelan un resultado paradójico: si bien el preentrenamiento contrastivo mejora sistemáticamente el rendimiento de la clasificación de mutaciones génicas, degrada el rendimiento de la predicción directa de la expresión génica en comparación con los codificadores de referencia entrenados sin objetivos intermodales. Los efectos de lote se identifican como un factor clave que dificulta el alineamiento intermodal efectivo, lo que destaca la importancia de los enfoques de aprendizaje multimodal robustos a lotes en transcriptómica espacial. Por último, abrimos el código fuente de HESCAPE para proporcionar un conjunto de datos estandarizados, un protocolo de evaluación y herramientas de evaluación comparativa.