Este artículo propone un marco de aprendizaje multimodal de representación de proteínas que aprovecha tanto la secuencia de proteínas como la información estructural 3D. Combina las ventajas de un modelo de lenguaje de proteínas (pLM) basado en Transformer, preentrenado con datos de secuencias de proteínas a gran escala, y una red neuronal de grafos (GNN) que aprovecha la información estructural 3D. Este marco permite un intercambio eficaz de información entre ambas modalidades mediante mecanismos de atención y activación. En concreto, un enfoque de fusión bijerárquica mejora la integración de la información de secuencia y estructural tanto a nivel local como global. El método propuesto supera a los métodos existentes en diversos parámetros de aprendizaje de representación de proteínas, como la clasificación de EC enzimáticos, la evaluación de la calidad del modelo, la predicción de la afinidad de unión proteína-ligando, la predicción del sitio de unión proteína-proteína y la predicción de epítopos de células B, lo que supone un nuevo hito en el campo del aprendizaje multimodal de representación de proteínas.