Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Unsupervised Document and Template Clustering using Multimodal Embeddings

Created by
  • Haebom

作者

Phillipe R. Sampaio, Helene Maxcici

概要

本稿では、固定されたマルチモーダルエンコーダと古典的なクラスタリングアルゴリズムを使用して、カテゴリレベルとテンプレートレベルでドキュメントの非マップクラスタリングを研究します。テキスト - レイアウト - ビジョンエンコーダの最後の階層状態をトークンタイプ認識文書ベクトルに投影し、中央ベースまたは密度ベースの方法(HDBSCAN + $ k $ -NN割り当てを含む)でクラスタリングを実行するモデルに依存しないパイプラインを体系化します。合成請求書、劣化した印刷版、スキャン領収書、実際の身分証明書、証明書文書など、5つのコーパスに対して8つのエンコーダ(テキストのみ、レイアウト認識、ビジョンのみ、ビジョン言語)を評価しました。研究の結果、モダリティ別の失敗モードと堅牢性 - 精度の間のトレードオフが示されました。きれいなページでは、ビジョン機能はテンプレートの発見をほとんど解決しますが、共変量シフトの下ではテキストが支配的であり、融合エンコーダが最適なバランスを提供します。再現可能なOracleフリーのチューニングプロトコルと選択された評価設定について詳しく説明します。

Takeaways、Limitations

Takeaways:
さまざまなモダリティ(テキスト、レイアウト、ビジョン)を活用して文書クラスタリングを実行するための効果的なパイプライン提示。
様々なエンコーダとクラスタリングアルゴリズムを評価することにより,各方法の長所と短所と適合性を分析した。
モダリティ固有の失敗モードと堅牢性と精度の間のトレードオフを明らかにした文書クラスタリング研究の方向性を提示します。
再現可能なチューニングプロトコルと評価設定を提示することで、その後の研究へのガイドラインを提供します。
Limitations:
特定の種類の文書(請求書、領収書、身分証明書など)の実験による一般化の制限。
さまざまなクラスタリングアルゴリズムを使用しましたが、すべての可能な組み合わせを試しているわけではありません。
固定されたエンコーダのみを使用し、ファインチューニングなどの他の方法論の考慮不足。
具体的な性能指標と定量的分析結果は明示的に示されておらず、性能比較の明確性の欠如。
👍