Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination

Created by
  • Haebom

作者

Ming Dai, Wenxuan Cheng, Jiedong Zhuang, Jiang-jiang Liu, Hongshen Zhao, Zhenhua Feng, Wankou Yang

概要

この論文は、従来の非効率的な提案ベースの2段階アプローチではなく、効率的なエンドツーエンド直接参照パラダイムを使用する最近の視覚的接地研究動向を考慮して、潜在的なターゲットの利点を見落とす既存の方法の限界を克服するために提案されたPropVGモデルを提示します。 PropVGは、追加の検出器を必要とせずに前景オブジェクト提案の作成と参照オブジェクトの理解をシームレスに統合するエンドツーエンド提案ベースのフレームワークです。文章と単語レベルの対照学習を用いたContrastive-based Refer Scoring(CRS)モジュールとオブジェクトとセマンティックレベル情報を融合して不在物の認識を向上させるMulti-granularity Target Discrimination(MTD)モジュールを導入し,多粒子区分機能を強化するgRefCOCO、Ref-ZOM、R-RefCOCO、RefCOCOベンチマークでPropVGの効果を実証する広範な実験結果を提示し、コードとモデルはFitHubに公開されています。

Takeaways、Limitations

Takeaways:
エンドツーエンドの提案ベースのフレームワークを通じて、従来の2段階アプローチの非効率性を解決しました。
追加の検出器なしで前景オブジェクト提案の生成と参照オブジェクトの理解を統合しました。
CRSモジュールにより、文章と単語レベルの対照学習により、参照オブジェクトの理解と区別能力が向上しました。
MTDモジュールにより多粒子区分機能を強化し、不在対象の認識率を高めました。
さまざまなベンチマークで優れた性能を実証しました。
Limitations:
本論文で提示されたLimitationsは明示的に言及されていない。さらなる実験や分析により、今後の研究方向を提示することができます。 (例:特定の種類の参照表現に対する脆弱性、さまざまな視覚環境に対する一般化パフォーマンスなど)
👍