Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

HVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment

Created by
  • Haebom

作者

Numair Nadeem, Saeed Anwar, Muhammad Hamza Asad, Abdul Bais

概要

この論文は、ビジョン言語モデル(VLM)のテキスト埋め込みから導き出されたドメイン不変セマンティック知識を活用して、ドメイン変化環境における準マップセマンティックセグメンテーション(SSS)問題を解決することをカバーします。トランスフォーマベースの分割ネットワークでは、ドメイン不変テキスト埋め込みをオブジェクトクエリに統合する統合階層ビジョン - 言語フレームワーク(HVL)を提案します。これにより、限られた地図学習環境で一般化のパフォーマンスが向上し、誤分類が減少します。提案されたテキストクエリは、SSSの下で共有セマンティクスを持つピクセルをグループ化するために使用されます。 HVL は、(1) VLM からドメイン不変セマンティクスを最大限にエンコードしながらクラス内の変化をキャプチャするテキストクエリを生成し、(2) これらのクエリを空間的視覚的特徴と整列させることで分割能力を向上させ、視覚的特徴の意味論的明確性を改善するように設計されています.さらに、意味論的理解を強化するために、訓練全体にわたってビジョン - 言語アライメントを維持するターゲット正規化損失を導入します。 HVLは、COCO(232個のラベル画像使用時mIoU+9.3%向上)、Pascal VOC(92個のラベル使用時+3.1%向上)、ADE20(316個のラベル使用時+4.8%向上)、Cityscapes(100個のラベル使用時+3.4%向上)など、4つのベンチマークデータセットでベン技術を確立します。結果は、言語誘導分割がラベル効率のギャップを解消し、新しいレベルの細かい一般化を可能にすることを示しています。

Takeaways、Limitations

Takeaways:
限られた地図学習データを使用した準地図セマンティックスプリットで優れたパフォーマンス向上を達成しました。
ビジョン - 言語モデルのドメイン不変意味論的知識を効果的に活用する新しいフレームワークを提案しました。
言語誘導分割により、ラベル効率のギャップを解消し、細かい一般化を可能にしました。
さまざまなベンチマークデータセットで最先端のパフォーマンスを達成しました。
Limitations:
VLMへの依存性が高く、VLMのパフォーマンスに影響を与える可能性があります。
提案された方法の計算コストが高くなる可能性があります。
様々なドメイン変化タイプの一般化性能評価がさらに必要である。
特定のドメインに過剰適合する可能性があります。
👍