Cet article présente HESCAPE, une référence à grande échelle pour l'évaluation des méthodes d'apprentissage multimodal exploitant à la fois les images de morphologie tissulaire et les données d'expression génique en transcriptomique spatiale. À partir d'un ensemble de données d'organes entiers triées sur le volet comprenant six panels de gènes et 54 donneurs, nous évaluons systématiquement des encodeurs d'images et d'expression génique de pointe selon différentes stratégies de pré-apprentissage et évaluons leur efficacité dans deux tâches ultérieures : la classification des mutations géniques et la prédiction de l'expression génique. Cette étude démontre que les encodeurs d'expression génique sont un déterminant clé d'un alignement d'expression robuste, les modèles génétiques pré-entraînés avec des données de transcriptomique spatiale surpassant les modèles entraînés sans données spatiales et avec des approches de base simples. Cependant, les évaluations ultérieures révèlent un résultat paradoxal : si le pré-apprentissage contrastif améliore systématiquement les performances de classification des mutations géniques, il dégrade les performances de prédiction directe de l'expression génique par rapport aux encodeurs de base entraînés sans objectifs intermodaux. Les effets de lot sont identifiés comme un facteur clé entravant un alignement intermodal efficace, soulignant l'importance des approches d'apprentissage multimodal robustes en transcriptomique spatiale. Enfin, nous ouvrons le code source d'HESCAPE pour fournir un ensemble de données standardisé, un protocole d'évaluation et des outils d'analyse comparative.