Bài báo này đề xuất MMSC, một khuôn khổ học tập biểu diễn mục quan hệ đa phương thức dựa trên học tự giám sát mới, được thiết kế để suy ra các mục thay thế và bổ sung. Các phương pháp hiện có tập trung vào việc mô hình hóa các liên kết giữa các mục được suy ra từ hành vi người dùng bằng cách sử dụng GNN hoặc tận dụng thông tin nội dung mục, nhưng có xu hướng bỏ qua những thách thức về sự khan hiếm dữ liệu do dữ liệu hành vi người dùng bị nhiễu và phân phối đuôi dài. MMSC bao gồm một mô-đun học tập biểu diễn mục đa phương thức sử dụng mô hình cơ sở đa phương thức, một mô-đun học tập biểu diễn hành động dựa trên học tự giám sát có chức năng khử nhiễu và học từ dữ liệu hành vi người dùng, và một cơ chế tổng hợp biểu diễn phân cấp tích hợp các biểu diễn mục ở cả cấp độ ngữ nghĩa và cấp độ tác vụ. Hơn nữa, LLM được sử dụng để tạo dữ liệu học tăng cường nhằm nâng cao hơn nữa quá trình khử nhiễu trong quá trình huấn luyện. Các thí nghiệm mở rộng trên năm tập dữ liệu thực tế chứng minh rằng MMSC vượt trội hơn các mô hình cơ sở hiện có 26,1% trong đề xuất thay thế và 39,2% trong đề xuất bổ sung, thể hiện hiệu quả của nó trong mô hình hóa mục khởi động nguội.