macOSWorld: A Multilingual Interactive Benchmark for GUI Agents
Created by
Haebom
저자
Pei Yang, Hai Ci, Mike Zheng Shou
개요
macOSWorld는 macOS 환경에서 GUI 에이전트를 평가하기 위한 최초의 종합적인 벤치마크입니다. 30개 애플리케이션(28개는 macOS 전용)에 걸쳐 5개 언어(영어, 중국어, 아랍어, 일본어, 러시아어)로 제공되는 202개의 다국어 상호작용 과제를 특징으로 합니다. 기존 벤치마크의 한계(영어 중심, 특정 OS 환경 집중)를 극복하고 macOS의 고유한 GUI 패턴과 애플리케이션을 포함합니다. 또한 GUI 에이전트의 속임수 공격 취약성을 고려하여 안전성 벤치마킹 하위 집합도 포함하고 있습니다. 6개의 GUI 에이전트에 대한 평가 결과, 독점적 컴퓨터 사용 에이전트는 30% 이상의 성공률을 보였지만 오픈소스 경량 연구 모델은 5% 미만의 성공률을 보여 macOS 도메인 적응의 필요성을 강조합니다. 다국어 벤치마크는 특히 아랍어에서 영어 대비 평균 28.8%의 성능 저하를 보이며 공통적인 약점을 드러냅니다. 안전성 벤치마킹 결과는 속임수 공격이 더 일반적이며 즉각적인 주의가 필요함을 강조합니다. macOSWorld는 https://github.com/showlab/macosworld 에서 이용 가능합니다.