Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Learning Active Perception via Self-Evolving Preference Optimization for GUI Grounding

Created by
  • Haebom

作者

Wanfu Wang, Qipeng Huang, Guangquan Xue, Xiaobo Liang, Juntao Li

概要

本論文は、高解像度入力と複雑な多要素視覚的相互作用の下でのGUIグランド操作の重要な課題であるVision Language Models(VLM)の効果的な画像領域推論問題を解決するためにLASERフレームワークを提案します。 LASERは、Monte Carlo quality estimationとIoUベースの領域品質評価を統合し、精度と多様性の両方を向上させる多段階知覚能力をVLMに徐々に付与し、正確な座標予測を可能にします。これにより、モデルは指示に関連する主要領域に集中し、作業の複雑さに応じて推論ステップを適応的に割り当てます。 ScreenSpot ProとScreenSpot-v2ベンチマークの実験結果は、LASERの有効性を検証し、7Bスケールモデルの中で最高のパフォーマンスを達成することを示しています。特に、GTA1-7BでファインチューニングされたLASERは、ScreenSpot-Proベンチマークで55.7ポイントを記録しました。

Takeaways、Limitations

Takeaways:
VLMの多段階知覚能力を向上させるための効果的なフレームワーク(LASER)の提示
Monte Carlo Quality estimationとIoUベースの評価の組み合わせによる精度と多様性の改善
高解像度入力と複雑な視覚的相互作用の下でのGUIグランド性能の向上
7Bスケールモデルで新しい最高性能を達成
Limitations:
LASERのパフォーマンス向上が特定のベンチマーク(ScreenSpot Pro、ScreenSpot-v2)に限定される可能性
さまざまな種類のGUIとタスクの一般化パフォーマンスの追加検証が必要
計算コストと効率の分析が必要
👍