Cet article propose un cadre d'apprentissage de la représentation protéique multimodale exploitant à la fois la séquence protéique et les informations structurales 3D. Il combine les atouts d'un modèle de langage protéique basé sur Transformer (pLM), pré-entraîné sur des données de séquences protéiques à grande échelle, et d'un réseau neuronal graphique (GNN) exploitant les informations structurales 3D. Ce cadre permet un échange d'informations efficace entre les deux modalités grâce à des mécanismes d'attention et de gating. Plus précisément, une approche de fusion bihiérarchique améliore l'intégration des informations de séquence et de structure aux niveaux local et global. La méthode proposée surpasse les méthodes existantes sur divers critères d'apprentissage de la représentation protéique, notamment la classification des CE enzymatiques, l'évaluation de la qualité des modèles, la prédiction de l'affinité de liaison protéine-ligand, la prédiction du site de liaison protéine-protéine et la prédiction de l'épitope des lymphocytes B, constituant ainsi un nouvel état de l'art dans le domaine de l'apprentissage de la représentation protéique multimodale.