본 논문은 다양한 모달리티(텍스트, 레이아웃 정보, 시각적 특징)를 활용한 다중 모달 임베딩을 이용하여 비지도 문서 군집화를 수행하는 새로운 방법을 제안합니다. 기존의 단순한 문서 유형 분류(예: 송장, 구매 주문서)를 넘어, 동일한 문서 유형 내에서도 서로 다른 템플릿을 구분하는 보다 세분화된 문서 이해를 목표로 합니다. SBERT, LayoutLMv1, LayoutLMv3, DiT, Donut, ColPali, Gemma3, InternVL3 등 최신 다중 모달 사전 학습 모델을 이용하여 생성된 임베딩을 $k$-Means, DBSCAN, HDBSCAN과 $k$-NN 조합, BIRCH 등의 군집 알고리즘에 적용하여 성능을 평가했습니다. 실험 결과, 다중 모달 임베딩이 문서 군집화 성능을 향상시키는 잠재력을 보여주었으며, 지능형 문서 처리, 문서 레이아웃 분석, 비지도 문서 분류 등 다양한 응용 분야에 기여할 수 있음을 시사합니다. 또한, 다양한 다중 모달 모델의 장단점을 분석하고 향후 연구 방향을 제시합니다.