Learning Active Perception via Self-Evolving Preference Optimization for GUI Grounding
Created by
Haebom
作者
Wanfu Wang, Qipeng Huang, Guangquan Xue, Xiaobo Liang, Juntao Li
概要
本論文は、高解像度入力と複雑な多要素視覚的相互作用の下でのGUIグランド操作の重要な課題であるVision Language Models(VLM)の効果的な画像領域推論問題を解決するためにLASERフレームワークを提案します。 LASERは、Monte Carlo quality estimationとIoUベースの領域品質評価を統合し、精度と多様性の両方を向上させる多段階知覚能力をVLMに徐々に付与し、正確な座標予測を可能にします。これにより、モデルは指示に関連する主要領域に集中し、作業の複雑さに応じて推論ステップを適応的に割り当てます。 ScreenSpot ProとScreenSpot-v2ベンチマークの実験結果は、LASERの有効性を検証し、7Bスケールモデルの中で最高のパフォーマンスを達成することを示しています。特に、GTA1-7BでファインチューニングされたLASERは、ScreenSpot-Proベンチマークで55.7ポイントを記録しました。
Takeaways、Limitations
•
Takeaways:
◦
VLMの多段階知覚能力を向上させるための効果的なフレームワーク(LASER)の提示
◦
Monte Carlo Quality estimationとIoUベースの評価の組み合わせによる精度と多様性の改善