Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Architectural Co-Design for Zero-Shot Anomaly Detection: Decoupling Representation and Dynamically Fusing Features in CLIP

Created by
  • Haebom

作者

Ke Ma, Jun Long, Hongxiao Fei, Liujie Hua, Yiran Qian, Zhen Dai, Yueyi Luo

概要

この論文は、事前訓練されたビジョン言語モデル(VLM)をゼロショット異常検出(ZSAD)に適用したときに発生する適応力低下の問題を解決するための新しいフレームワークを提供します。 VLMは、密集予測のための局所的帰納的偏向が不足しており、柔軟でない特徴融合パラダイムに依存する限界を持っています。具体的には、パラメータ効率的な合成積低次元適応(Conv-LoRA)アダプターを統合して微細な表現のための局所的帰納的偏向を注入し、視覚的コンテキストを活用してテキストプロンプトを適応的に調節する動的融合ゲートウェイ(DFG)を導入して強力な双方向融合を可能にします。様々な産業・医療ベンチマークの広範な実験により、優れた精度と堅牢性を実証し、基礎モデルを高密度知覚作業に強力に適用するためには、これらの相乗効果をもたらす共同設計が重要であることを確認しました。

Takeaways、Limitations

Takeaways:
VLMのゼロショット異常検出性能を向上させるための効果的な方法を提示します。
Conv-LoRAとDFGによるアーキテクチャ共同設計の重要性を強調
密集した知覚作業に対する基礎モデル適用の新しい可能性の提示
様々な産業・医療分野での適用性の確認
Limitations:
提案された方法の計算コストと複雑さの分析不足
さまざまなVLMの一般化パフォーマンス検証が必要です。
実際のアプリケーション環境での追加の検証が必要です。
ある種の異常現象に対する性能偏向の可能性
👍