Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models

Created by
  • Haebom

저자

Hyunjun Kim, Sejong Kim

MacroBench: LLM 기반 브라우저 자동화 매크로 합성 벤치마크

개요

본 논문은 자연어 목표로부터 재사용 가능한 브라우저 자동화 프로그램(매크로)을 합성할 수 있는지 평가하는 코드 우선 벤치마크인 MacroBench를 소개합니다. MacroBench는 HTML/DOM을 읽고 Selenium 코드를 생성하여 7개의 자체 호스팅 사이트에서 상호 작용 복잡성 및 타겟팅 난이도에 걸쳐 681개의 작업을 수행합니다. 생성된 코드는 정적 검사, 샌드박스 실행 및 결과 검증(DOM 어설션, 데이터베이스 스냅샷)을 통해 검증되며, 스크래핑, 스팸/악용 및 자격 증명/개인 정보 보호 프롬프트에 대한 안전성 평가도 포함합니다. 2,636개의 모델-작업 실행에서, GPT-4o-mini (96.8%), GPT-4o (95.3%), Gemini (89.0%), DeepSeek (83.4%)의 성공률을 보였습니다. 모델은 단순 작업은 신뢰성 있게 처리하지만 복잡한 워크플로우에서는 실패하며, 기능적 완료에도 불구하고 생산 품질의 코딩 방식을 충족하지 못합니다.

시사점, 한계점

시사점:
LLM이 브라우저 자동화 매크로 합성에 성공적인 결과를 보임.
MacroBench는 다양한 난이도의 작업을 통해 LLM의 성능을 평가하는 벤치마크를 제공함.
벤치마크 및 평가 프레임워크를 공개하여 재현 가능한 평가를 가능하게 함.
한계점:
복잡한 워크플로우에서 모델의 성능이 저조함.
생산 품질의 코딩 방식을 충족하지 못함.
👍