本論文では、多様なモダリティ(テキスト、レイアウト情報、視覚的特徴)を活用したマルチモーダル埋め込みを利用して、非マップ文書群集化を行う新しい方法を提案します。既存の単純な文書タイプの分類(たとえば、請求書、購買発注書など)を超えて、同じ文書タイプ内でも異なるテンプレートを区別する、より細かい文書を理解することを目指しています。 SBERT、LayoutLMv1、LayoutLMv3、DiT、Donut、ColPali、Gemma3、InternVL3など、最新のマルチモーダル事前学習モデルを使用して生成された埋め込みを、$k$-Means、DBSCAN、HDBSCANと$k$-NNの組み合わせ、BIRCHなどのクラスターアルゴリズムに適用して性能を評価しました。実験の結果,マルチモーダル埋め込みが文書群集化性能を改善する可能性を示したことが示唆され,インテリジェント文書処理,文書レイアウト分析,非地図文書分類など,様々な応用分野に寄与できることを示唆した。さらに、多様なマルチモーダルモデルの長所と短所を分析し、今後の研究方向を提示します。