Cet article propose une nouvelle méthode de clustering non supervisé de documents utilisant des intégrations multimodales exploitant diverses modalités (texte, informations de mise en page et caractéristiques visuelles). Au-delà de la simple classification par type de document (par exemple, factures, bons de commande), nous cherchons à obtenir une compréhension plus fine des documents en distinguant différents modèles au sein d'un même type de document. Nous évaluons les performances des intégrations générées à l'aide de modèles multimodaux pré-entraînés de pointe, notamment SBERT, LayoutLMv1, LayoutLMv3, DiT, Donut, ColPali, Gemma3 et InternVL3, en les appliquant à des algorithmes de clustering tels que $k$-Means, DBSCAN, HDBSCAN avec $k$-NN et BIRCH. Les résultats expérimentaux démontrent le potentiel des intégrations multimodales pour améliorer les performances du clustering de documents, suggérant leur potentiel pour diverses applications, notamment le traitement intelligent de documents, l'analyse de la mise en page de documents et la classification non supervisée de documents. De plus, nous analysons les forces et les faiblesses de divers modèles multimodaux et suggérons des orientations de recherche futures.