Bài báo này đề xuất một phương pháp mới để phân cụm tài liệu không giám sát bằng cách sử dụng nhúng đa phương thức, tận dụng nhiều phương thức khác nhau (văn bản, thông tin bố cục và các đặc điểm trực quan). Ngoài việc phân loại loại tài liệu đơn giản (ví dụ: hóa đơn, đơn đặt hàng), chúng tôi hướng đến việc hiểu tài liệu chi tiết hơn bằng cách phân biệt các mẫu khác nhau trong cùng một loại tài liệu. Chúng tôi đánh giá hiệu suất của các nhúng được tạo bằng các mô hình đa phương thức được đào tạo trước tiên tiến, bao gồm SBERT, LayoutLMv1, LayoutLMv3, DiT, Donut, ColPali, Gemma3 và InternVL3, bằng cách áp dụng chúng vào các thuật toán phân cụm như $k$-Means, DBSCAN, HDBSCAN với $k$-NN và BIRCH. Kết quả thực nghiệm chứng minh tiềm năng của nhúng đa phương thức trong việc cải thiện hiệu suất phân cụm tài liệu, cho thấy tiềm năng của chúng đối với các ứng dụng đa dạng, bao gồm xử lý tài liệu thông minh, phân tích bố cục tài liệu và phân loại tài liệu không giám sát. Hơn nữa, chúng tôi phân tích điểm mạnh và điểm yếu của các mô hình đa phương thức khác nhau và đề xuất các hướng nghiên cứu trong tương lai.