Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance

Created by
  • Haebom

作者

Zhang Li, Biao Yang, Qiang Liu, Shuo Zhang, Zhiyin Ma, Liang Yin, Linger Deng, Yabo Sun, Yuliang Liu, Xiang Bai

概要

本稿では、大規模マルチモードモデル(LMM)の精度を向上させるための新しいフレームワークであるLIRAを提案します。 LMMは、分割と理解能力に優れていますが、不正確な分割とサイケデリックな理解という2つのLimitationsがあります。 LIRAは、視覚的理解と分割の相補的な関係を活用して、これらの制限を克服します。主要なコンポーネントであるSemantic-Enhanced Feature Extractor(SEFE)は、意味とピクセルレベルの特徴を融合し、オブジェクト属性の推論を改善し、より正確な分割を可能にします。別のコンポーネントであるInterleaved Local Visual Coupling(ILVC)は、分割マスクに基づいて地域の特徴を抽出し、地域の説明を自動回帰的に生成して幻覚を軽減するための細かい監督を提供します。オブジェクト分割の精度とトークンの潜在的な関連する意味との間の相関関係を定量化するために、Attributes Evaluation(AttrEval)データセットを導入しました。実験の結果、LIRAは分割作業と理解作業の両方で最先端のパフォーマンスを達成しました。

Takeaways、Limitations

Takeaways:
LMMの不正確な分割とサイケデリックな理解の問題解決への新しいアプローチの提示
SEFEとILVCによる分割精度と理解能力の向上
オブジェクトの分割精度と潜在的な関連する意味との間の相関関係の解明とAttrEvalデータセットの提示
さまざまな分割と理解作業で最先端のパフォーマンスを達成。
Limitations:
提示されたAttrEvalデータセットの規模と一般化性能の追加検証が必要です。
LIRAのパフォーマンス向上が特定のデータセットまたは操作に限定される可能性。
LIRAフレームワークの計算コストと複雑さの分析が必要です。
👍