Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation

Created by
  • Haebom

作者

Luca Barsellotti, Lorenzo Bianchi, Nicola Messina, Fabio Carrara, Marcella Cornia, Lorenzo Baraldi, Fabrizio Falchi, Rita Cucchiara

概要

Talk2DINOは、DINOv2の空間的精度とCLIPの言語理解能力を組み合わせた新しいハイブリッドアプローチを提示するオープンボケブルラリーセグメンテーション(OVS)論文です。既存のビジョン言語モデルの空間的位置決めの難しさと自己地図学習ベースの視覚モデルの言語統合の欠如の問題を解決するために、CLIPのテキスト埋め込みとDINOv2のパッチレベルの特徴との間の学習マッピング関数を介してソートします。 DINOv2のアテンションマップを活用して、ローカルビジュアルパッチとテキスト埋め込みを選択的に並べ替え、基本バックボーンの微調整なしでこれを行います。 Talk2DINOは、自然でノイズの少ないセグメンテーションを生成し、前景オブジェクトと背景を効果的に区別できることを示しています。複数の非マップ学習OVSベンチマークで最先端のパフォーマンスを達成します。ソースコードとモデルは公開されています。

Takeaways、Limitations

Takeaways:
DINOv2とCLIPの利点を組み合わせることで、従来のOVS法の限界を克服。
アテンションマップを利用した選択的アライメントによる効率的な学習とパフォーマンスの向上
バックボーンの微調整なしで優れた性能を達成。
自然でノイズの少ないセグメンテーション結果の生成
前景と背景の効果的な区別。
最先端のパフォーマンスを達成し、公開されたソースコードとモデル。
Limitations:
本論文では具体的なLimitationsを明示的に述べていない。追加の実験や分析を通じて探索できる部分である。 (例:特定の種類の画像やテキストに対する脆弱性、計算コスト、拡張性など)
👍