本稿では、自然言語の目標から再利用可能なブラウザ自動化プログラム(マクロ)を合成できるかどうかを評価するコード優先ベンチマークであるMacroBenchを紹介します。 MacroBenchはHTML / DOMを読み、Seleniumコードを生成し、7つの独自のホスティングサイトで相互作用の複雑さとターゲティングの難易度にわたって681のタスクを実行します。生成されたコードは、スタティックチェック、サンドボックス実行、および結果検証(DOMアサーション、データベーススナップショット)によって検証され、スクレイピング、スパム/悪用、および資格情報/個人情報保護プロンプトの安全性評価も含まれます。 2,636のモデル - タスク実行で、GPT-4o-mini(96.8%)、GPT-4o(95.3%)、Gemini(89.0%)、DeepSeek(83.4%)の成功率を示しました。モデルは単純な作業を確実に処理しますが、複雑なワークフローでは失敗し、機能的な完了にもかかわらず生産品質のコーディング方法を満たしていません。