Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Unsupervised Document and Template Clustering using Multimodal Embeddings

Created by
  • Haebom

作者

Phillipe R. Sampaio, Helene Maxcici

概要

本論文では、多様なモダリティ(テキスト、レイアウト情報、視覚的特徴)を活用したマルチモーダル埋め込みを利用して、非マップ文書群集化を行う新しい方法を提案します。既存の単純な文書タイプの分類(たとえば、請求書、購買発注書など)を超えて、同じ文書タイプ内でも異なるテンプレートを区別する、より細かい文書を理解することを目指しています。 SBERT、LayoutLMv1、LayoutLMv3、DiT、Donut、ColPali、Gemma3、InternVL3など、最新のマルチモーダル事前学習モデルを使用して生成された埋め込みを、$k$-Means、DBSCAN、HDBSCANと$k$-NNの組み合わせ、BIRCHなどのクラスターアルゴリズムに適用して性能を評価しました。実験の結果,マルチモーダル埋め込みが文書群集化性能を改善する可能性を示したことが示唆され,インテリジェント文書処理,文書レイアウト分析,非地図文書分類など,様々な応用分野に寄与できることを示唆した。さらに、多様なマルチモーダルモデルの長所と短所を分析し、今後の研究方向を提示します。

Takeaways、Limitations

Takeaways:
マルチモーダル埋め込みを活用した非地図文書群集化の効果性を立証
細分化された文書の理解と分類のための新しいアプローチを提示します。
多様なマルチモーダルモデルの性能比較分析による最適モデル選択のためのガイドラインを提供
インテリジェント文書処理、文書レイアウト分析、非マップ文書分類など、さまざまな用途に利用可能性を提示
Limitations:
使用されるマルチモーダルモデルの種類と性能の追加分析が必要です。
特定の種類の文書またはレイアウトに対する偏りの存在の可能性。
実際の応用分野における一般化性能評価の必要性
大規模な文書データセットの拡張性検証が必要です。
👍