Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent

Created by
  • Haebom

저자

Bin Xie, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Jie Liu, Min Zhang, Liqiang Nie

개요

GUI 자동화는 동적인 환경에서 중요한 과제에 직면합니다. 대규모 언어 모델(LLM)은 UI 구성 요소 오해 및 오래된 지식이라는 두 가지 주요 문제점을 가지고 있습니다. 기존의 미세 조정 방법은 앱 특정 지식 업데이트에 비용이 많이 듭니다. 본 논문에서는 두 가지 기본 메커니즘을 통합한 훈련이 필요 없는 GUI 에이전트인 GUI-explorer를 제안합니다. 첫째, 기능 인식 경로의 자율적 탐색입니다. 모든 애플리케이션 기능을 포괄적으로 다루기 위해 GUI 구조 정보(예: 스크린샷 및 활동 계층 구조)를 분석하여 탐색 목표를 자동으로 구성하는 기능 인식 작업 목표 생성기를 설계했습니다. 이를 통해 다양한 경로를 수집하는 체계적인 탐색이 가능해집니다. 둘째, 전이 인식 지식의 비지도 학습입니다. 정확한 화면 조작 논리를 확립하기 위해 구조화된 상호 작용 트리플(관찰, 동작, 결과)의 상태 전이를 비지도 분석하여 효과적인 화면 조작 논리를 추출하는 전이 인식 지식 추출기를 개발했습니다. 이를 통해 지식 추출에 대한 사람의 개입이 필요하지 않습니다. SPA-Bench에서 53.7%, AndroidWorld에서 47.4%의 작업 성공률을 보이며, GUI-explorer는 최첨단 에이전트보다 상당한 개선을 보여줍니다. 새로운 앱에 대해 매개변수 업데이트가 필요하지 않습니다. GUI-explorer는 오픈소스이며 https://github.com/JiuTian-VL/GUI-explorer 에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
훈련이 필요 없는 GUI 자동화 에이전트를 제시하여 기존 방법의 한계인 앱 특정 지식 업데이트의 비용 문제를 해결.
기능 인식 작업 목표 생성기와 전이 인식 지식 추출기를 통해 체계적인 탐색 및 정확한 화면 조작 논리 추출 가능.
SPA-Bench와 AndroidWorld에서 SOTA 에이전트보다 높은 작업 성공률 달성.
새로운 앱에 대한 매개변수 업데이트가 필요 없어 유지보수 비용 절감.
오픈소스로 공개되어 접근성 향상.
한계점:
SPA-Bench와 AndroidWorld에서의 성공률이 아직 50%대에 머물러 완벽한 자동화에는 이르지 못함.
다양한 유형의 GUI나 복잡한 상호작용에 대한 일반화 성능에 대한 추가적인 평가 필요.
기능 인식 작업 목표 생성기와 전이 인식 지식 추출기의 성능 향상 여지 존재.
특정 유형의 GUI 또는 애플리케이션에 대한 편향성 존재 가능성.
👍