Bài báo này đề xuất một khuôn khổ học biểu diễn protein đa phương thức tận dụng cả thông tin trình tự protein và cấu trúc 3D. Nó kết hợp thế mạnh của mô hình ngôn ngữ protein dựa trên Transformer (pLM), được đào tạo trước trên dữ liệu trình tự protein quy mô lớn, và mạng nơ-ron đồ thị (GNN) tận dụng thông tin cấu trúc 3D. Khuôn khổ này cho phép trao đổi thông tin hiệu quả giữa cả hai phương thức thông qua cơ chế chú ý và cơ chế gating. Cụ thể, phương pháp hợp nhất hai cấp độ phân cấp tăng cường tích hợp thông tin trình tự và cấu trúc ở cả cấp độ cục bộ và toàn cục. Phương pháp được đề xuất vượt trội hơn các phương pháp hiện có trên nhiều tiêu chuẩn học biểu diễn protein, bao gồm phân loại EC của enzyme, đánh giá chất lượng mô hình, dự đoán ái lực liên kết protein-phối tử, dự đoán vị trí liên kết protein-protein và dự đoán epitop tế bào B, đạt được một trình độ tiên tiến mới trong lĩnh vực học biểu diễn protein đa phương thức.