본 논문은 자연어 목표로부터 재사용 가능한 브라우저 자동화 프로그램(매크로)을 합성할 수 있는지 평가하는 코드 우선 벤치마크인 MacroBench를 소개합니다. MacroBench는 HTML/DOM을 읽고 Selenium 코드를 생성하여 7개의 자체 호스팅 사이트에서 상호 작용 복잡성 및 타겟팅 난이도에 걸쳐 681개의 작업을 수행합니다. 생성된 코드는 정적 검사, 샌드박스 실행 및 결과 검증(DOM 어설션, 데이터베이스 스냅샷)을 통해 검증되며, 스크래핑, 스팸/악용 및 자격 증명/개인 정보 보호 프롬프트에 대한 안전성 평가도 포함합니다. 2,636개의 모델-작업 실행에서, GPT-4o-mini (96.8%), GPT-4o (95.3%), Gemini (89.0%), DeepSeek (83.4%)의 성공률을 보였습니다. 모델은 단순 작업은 신뢰성 있게 처리하지만 복잡한 워크플로우에서는 실패하며, 기능적 완료에도 불구하고 생산 품질의 코딩 방식을 충족하지 못합니다.