Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning

Created by
  • Haebom

作者

Hang Wu, Hongkai Chen, Yujun Cai, Chang Liu, Qingwen Ye, Ming-Hsuan Yang, Yiwei Wang

概要

本論文は、様々な視覚的要素、空間的輻輳、言語の曖昧さのために困難に遭遇するグラフィカルユーザーインターフェース(GUI)での自然言語クエリに基づく問題を扱います。 DiMo-GUIと呼ばれる学習を必要としないGUIベースのフレームワークを提示します。これは、動的視覚的ベースとモーダル認識の最適化という2つの重要な戦略を利用します。 GUIを単一の画像として扱うのではなく、テキスト要素とアイコン要素に入力を分割し、一般的なビジョン言語モデルを使用して各モダリティを独立して推論します。予測が不明瞭または間違っている場合、DiMo-GUIはモデルの初期予測を中心に候補焦点領域を作成し、徐々にサブ領域に拡大して基礎結果を改善することによって動的に注意を集中します。これらの階層的な改善プロセスは、追加の学習や注釈なしで視覚的に混雑したレイアウトのあいまいさを解消するのに役立ちます。標準GUIベースのベンチマークでアプローチを評価し、基準推論パイプラインよりも一貫した改善を示すことで、モダリティ分離と領域中心推論を組み合わせた効果を強調します。

Takeaways、Limitations

Takeaways:
学習を必要としないGUIベースのフレームワークを提供することで、データ収集と注釈のコストを削減できます。
モダリティ分離と領域中心の推論を組み合わせることで、視覚的に混雑したGUIでも効果的に自然言語クエリを処理できます。
既存の推論パイプラインよりもパフォーマンスが向上することを実験的に証明しました。
Limitations:
提示された方法の一般化性能に関するさらなる研究が必要である。さまざまなGUIデザインと複雑さのロバスト性をさらに検証する必要があります。
特定の種類のGUIまたはクエリではパフォーマンスが低下する可能性があります。より広範な実験により、Limitationsを明確に把握する必要があります。
複雑なGUIやあいまいな問合せの処理性能と効率のさらなる分析が必要です。
👍