macOSWorld는 macOS 환경에서 GUI 에이전트를 평가하기 위한 최초의 종합적인 벤치마크입니다. 30개 응용 프로그램(28개는 macOS 전용)에서 5개 언어(영어, 중국어, 아랍어, 일본어, 러시아어)로 제공되는 202개의 다국어 상호 작용 작업을 특징으로 합니다. 기존 벤치마크의 한계인 영어 중심, 특정 운영체제(Windows, Linux, Android) 중심, macOS 환경 미포함 문제를 해결하고, GUI 에이전트의 속임수 공격 취약성을 고려하여 안전성 평가 부분도 포함하고 있습니다. 6개의 GUI 에이전트를 평가한 결과, 독점적 컴퓨터 사용 에이전트는 30% 이상의 성공률을 보인 반면, 오픈소스 경량 연구 모델은 2% 미만의 성공률을 보여 macOS 도메인 적응의 필요성을 강조했습니다. 다국어 벤치마크는 특히 아랍어에서 영어 대비 평균 27.5%의 성능 저하를 보이며, 공통적인 약점을 드러냈습니다. 안전성 평가 결과는 속임수 공격이 더 일반적이며 즉각적인 대응이 필요함을 강조합니다. GitHub에서 공개적으로 이용 가능합니다.