Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

macOSWorld: A Multilingual Interactive Benchmark for GUI Agents

Created by
  • Haebom

저자

Pei Yang, Hai Ci, Mike Zheng Shou

개요

macOSWorld는 macOS 환경에서 GUI 에이전트를 평가하기 위한 최초의 종합적인 벤치마크입니다. 30개 응용 프로그램(28개는 macOS 전용)에서 5개 언어(영어, 중국어, 아랍어, 일본어, 러시아어)로 제공되는 202개의 다국어 상호 작용 작업을 특징으로 합니다. 기존 벤치마크의 한계인 영어 중심, 특정 운영체제(Windows, Linux, Android) 중심, macOS 환경 미포함 문제를 해결하고, GUI 에이전트의 속임수 공격 취약성을 고려하여 안전성 평가 부분도 포함하고 있습니다. 6개의 GUI 에이전트를 평가한 결과, 독점적 컴퓨터 사용 에이전트는 30% 이상의 성공률을 보인 반면, 오픈소스 경량 연구 모델은 2% 미만의 성공률을 보여 macOS 도메인 적응의 필요성을 강조했습니다. 다국어 벤치마크는 특히 아랍어에서 영어 대비 평균 27.5%의 성능 저하를 보이며, 공통적인 약점을 드러냈습니다. 안전성 평가 결과는 속임수 공격이 더 일반적이며 즉각적인 대응이 필요함을 강조합니다. GitHub에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
macOS 환경에서 GUI 에이전트를 평가할 수 있는 최초의 종합적인 벤치마크 제공.
다국어 지원을 통해 GUI 에이전트의 다국어 처리 능력 평가 가능.
속임수 공격에 대한 GUI 에이전트의 취약성을 평가하고 개선 방향 제시.
macOS 도메인 적응의 필요성을 데이터로 제시.
다국어 지원에도 불구하고, 아랍어와 같은 특정 언어에서의 성능 저하 문제를 발견.
한계점:
현재 벤치마크에 포함된 GUI 에이전트의 수가 제한적일 수 있음.
macOS 환경에 특화되어 다른 운영체제 환경에서는 적용 불가능.
향후 더욱 다양한 작업 및 응용 프로그램을 포함하여 벤치마크의 포괄성을 높일 필요가 있음.
👍