本稿では、固定されたマルチモーダルエンコーダと古典的なクラスタリングアルゴリズムを使用して、カテゴリレベルとテンプレートレベルでドキュメントの非マップクラスタリングを研究します。テキスト - レイアウト - ビジョンエンコーダの最後の階層状態をトークンタイプ認識文書ベクトルに投影し、中央ベースまたは密度ベースの方法(HDBSCAN + $ k $ -NN割り当てを含む)でクラスタリングを実行するモデルに依存しないパイプラインを体系化します。合成請求書、劣化した印刷版、スキャン領収書、実際の身分証明書、証明書文書など、5つのコーパスに対して8つのエンコーダ(テキストのみ、レイアウト認識、ビジョンのみ、ビジョン言語)を評価しました。研究の結果、モダリティ別の失敗モードと堅牢性 - 精度の間のトレードオフが示されました。きれいなページでは、ビジョン機能はテンプレートの発見をほとんど解決しますが、共変量シフトの下ではテキストが支配的であり、融合エンコーダが最適なバランスを提供します。再現可能なOracleフリーのチューニングプロトコルと選択された評価設定について詳しく説明します。