[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces

Created by
  • Haebom

作者

El Hassane Ettifouri, Jessica L opez Espejel, Laura Minkova, Tassnim Dardouri, Walid Dahhane

概要

この論文は、グラフィカルユーザーインターフェース(GUI)などの合成画像の視覚的グラウンディング問題を解決するInstruction Visual Grounding(IVG)方法を提案します。従来のビジュアルグラウンディング研究が主に現実的な画像に焦点を当てたのとは異なり、この論文は自然言語命令とGUI画面を入力し、命令実行対象要素の座標を見つけることに焦点を当てています。この目的のために、LLM、オブジェクト検出モデル、OCRモジュールを組み合わせたIVGocrと、マルチモードアーキテクチャを使用したエンドツーエンドアプローチであるIVGdirectの2つの方法を提案し、各方法に専用のデータセットをまとめて公開します。また、既存のCPS指標を緩和した新しい評価指標であるCPVを提示し、最終テストデータセットを公開して今後の研究を支援します。

Takeaways、Limitations

Takeaways:
GUI内のオブジェクトを識別するための新しいアプローチであるIVG提案
GUI自動化インタラクションのためのAIエージェントの開発に貢献
ソフトウェアテスト、アクセシビリティ、HCI分野の発展可能性の提示
2つのIVG方法(IVGocr、IVGdirect)と専用データセットを提供
新しい評価指標 CPV 提案と公開データセットの提供による今後の研究支援
Limitations:
提案された方法とデータセットの一般化性能の追加検証が必要
さまざまなGUIスタイルと複雑さに対するロバースト性評価が必要
CPV指標の限界と他の評価指標との比較分析が必要
実際のGUI環境でのパフォーマンス評価と適用研究が必要
👍