Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models

Created by
  • Haebom

作者

ヒョンジュンキム、セジョンキム

MacroBench:LLMベースのブラウザ自動化マクロ合成ベンチマーク

概要

本稿では、自然言語の目標から再利用可能なブラウザ自動化プログラム(マクロ)を合成できるかどうかを評価するコード優先ベンチマークであるMacroBenchを紹介します。 MacroBenchはHTML / DOMを読み、Seleniumコードを生成し、7つの独自のホスティングサイトで相互作用の複雑さとターゲティングの難易度にわたって681のタスクを実行します。生成されたコードは、スタティックチェック、サンドボックス実行、および結果検証(DOMアサーション、データベーススナップショット)によって検証され、スクレイピング、スパム/悪用、および資格情報/個人情報保護プロンプトの安全性評価も含まれます。 2,636のモデル - タスク実行で、GPT-4o-mini(96.8%)、GPT-4o(95.3%)、Gemini(89.0%)、DeepSeek(83.4%)の成功率を示しました。モデルは単純な作業を確実に処理しますが、複雑なワークフローでは失敗し、機能的な完了にもかかわらず生産品質のコーディング方法を満たしていません。

Takeaways、Limitations

Takeaways:
LLMはブラウザ自動化マクロ合成に成功した結果を示しています。
MacroBenchは、さまざまな難易度の作業を通じてLLMのパフォーマンスを評価するベンチマークを提供しています。
ベンチマークと評価フレームワークを公開し、再現可能な評価を可能にします。
Limitations:
複雑なワークフローでモデルのパフォーマンスが低下します。
生産品質のコーディング方式を満たしていません。
👍