Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

UITron-Speech: Towards Automated GUI Agents Based on Speech Instructions

Created by
  • Haebom

作者

Wenkang Han, Zhixiong Zeng, Jing Huang, Shu Jiang, Liming Zheng, Haibo Qiu, Chang Yao, Jingyuan Chen, Lin Ma

概要

本論文は、GUIエージェントの入力方式で音声を使用するUITron-Speechを提案する。既存のテキストベースのGUIエージェントのアクセシビリティと利便性の制限を克服するために、音声コマンドとオンデバイスのスクリーンショットを直接処理してユーザーの行動を予測する最初のエンドツーエンドのGUIエージェントを開発しました。データ不足のトラブルシューティングのために、ランダム話者テキスト音声変換モデルを使用して高品質の音声コマンドデータセットを合成し、事前訓練されたベースモデルのモーダル不均衡問題を軽減するために、混合モダリティトレーニング戦略を設計しました。また、GUIグラウンディング予測誤差分布の統計分析を行い、マイナーな位置誤差を軽減するためのトレーニングを必要としない2段階グラウンディング改善方法を提案しました。さまざまなベンチマークの広範な実験により、UITron-Speechは堅牢なパフォーマンスと優れた適応性を達成し、音声ベースのGUIエージェントの実現可能性と可能性を強調します。コードとデータセットはhttps://github.com/UITron-hub/UITron-Speechで利用できます。

Takeaways、Limitations

Takeaways:
音声ベースのGUIエージェントの実現可能性とアクセシビリティの向上を示します。
データ不足のトラブルシューティングのための効果的なデータ合成とトレーニング戦略の提示
GUIグラウンディングエラーを改善するための効率的な方法提案
より便利でインテリジェントな人間とコンピュータの相互作用のための新しい可能性を提示します。
Limitations:
本論文で提示した方法の一般化性能に関する追加研究の必要性
さまざまな音声および言語環境に対するロバストネス評価が必要です。
実際の使用環境でのパフォーマンス評価とユーザーエクスペリエンス研究が必要です。
複雑なGUIまたはさまざまな種類のGUIの適用可能性検証が必要です。
👍