[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Benchmarking Mobile Device Control Agents across Diverse Configurations

Created by
  • Haebom

作者

Juyong Lee, Taywon Min, Minyong An, Dongyoon Hahm, Haeone Lee, Changyeon Kim, Kimin Lee

概要

B-MoCAは、モバイル機器制御エージェントの性能評価のための新しいベンチマークです。 Androidオペレーティングシステムに基づいており、131の日常的な作業が含まれています。ユーザーインターフェイスのレイアウトや言語設定など、モバイル機器の構成をランダムに変更する機能で一般化性能を評価します。大規模言語モデル(LLM)やマルチモーダルLLMを使用するエージェント、そして専門家のデモンストレーションを使った模倣学習で訓練されたエージェントなど、さまざまなエージェントをベンチマークすることで、簡単な作業では巧みだが複雑な作業では性能が低下することを示しており、今後の研究のための重要な課題を提示します。ソースコードは公に提供されます。

Takeaways、Limitations

Takeaways:モバイル機器制御エージェントの研究のための標準化されたベンチマークの提供、さまざまなエージェントの性能比較と分析可能、モバイル機器制御エージェントの一般化性能の評価可能、将来の研究方向の提示(複雑なタスク実行能力の向上)。
Limitations:現在のベンチマークに含まれるタスクの複雑さレベルの制限、実際の使用環境との違い、特定のAndroidバージョンとデバイスに依存する可能性があり、さまざまな種類のモバイルデバイスとユーザーの行動を十分に反映していない可能性。
👍