Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unsupervised Document and Template Clustering using Multimodal Embeddings

작성자
  • Haebom

저자

Phillipe R. Sampaio, Helene Maxcici

개요

본 논문은 다양한 모달리티(텍스트, 레이아웃 정보, 시각적 특징)를 활용한 다중 모달 임베딩을 이용하여 비지도 문서 군집화를 수행하는 새로운 방법을 제안합니다. 기존의 단순한 문서 유형 분류(예: 송장, 구매 주문서)를 넘어, 동일한 문서 유형 내에서도 서로 다른 템플릿을 구분하는 보다 세분화된 문서 이해를 목표로 합니다. SBERT, LayoutLMv1, LayoutLMv3, DiT, Donut, ColPali, Gemma3, InternVL3 등 최신 다중 모달 사전 학습 모델을 이용하여 생성된 임베딩을 $k$-Means, DBSCAN, HDBSCAN과 $k$-NN 조합, BIRCH 등의 군집 알고리즘에 적용하여 성능을 평가했습니다. 실험 결과, 다중 모달 임베딩이 문서 군집화 성능을 향상시키는 잠재력을 보여주었으며, 지능형 문서 처리, 문서 레이아웃 분석, 비지도 문서 분류 등 다양한 응용 분야에 기여할 수 있음을 시사합니다. 또한, 다양한 다중 모달 모델의 장단점을 분석하고 향후 연구 방향을 제시합니다.

시사점, 한계점

시사점:
다중 모달 임베딩을 활용한 비지도 문서 군집화의 효과성을 입증.
세분화된 문서 이해 및 분류를 위한 새로운 접근법 제시.
다양한 다중 모달 모델의 성능 비교 분석을 통해 최적 모델 선택에 대한 가이드라인 제공.
지능형 문서 처리, 문서 레이아웃 분석, 비지도 문서 분류 등 다양한 응용 분야에 활용 가능성 제시.
한계점:
사용된 다중 모달 모델의 종류 및 성능에 대한 추가적인 분석이 필요.
특정 유형의 문서 또는 레이아웃에 대한 편향성 존재 가능성.
실제 응용 분야에서의 일반화 성능 평가 필요.
대규모 문서 데이터셋에 대한 확장성 검증 필요.
👍