GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent
Created by
Haebom
저자
Bin Xie, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Jie Liu, Min Zhang, Liqiang Nie
개요
GUI 자동화는 동적인 환경에서 중요한 과제에 직면합니다. 대규모 언어 모델(LLM)은 UI 구성 요소 오해 및 오래된 지식이라는 두 가지 주요 문제점을 가지고 있습니다. 기존의 미세 조정 방법은 앱 특정 지식 업데이트에 비용이 많이 듭니다. 본 논문에서는 두 가지 기본 메커니즘을 통합한 훈련이 필요 없는 GUI 에이전트인 GUI-explorer를 제안합니다. 첫째, 기능 인식 경로의 자율적 탐색입니다. 모든 애플리케이션 기능을 포괄적으로 다루기 위해 GUI 구조 정보(예: 스크린샷 및 활동 계층 구조)를 분석하여 탐색 목표를 자동으로 구성하는 기능 인식 작업 목표 생성기를 설계했습니다. 이를 통해 다양한 경로를 수집하는 체계적인 탐색이 가능해집니다. 둘째, 전이 인식 지식의 비지도 학습입니다. 정확한 화면 조작 논리를 확립하기 위해 구조화된 상호 작용 트리플(관찰, 동작, 결과)의 상태 전이를 비지도 분석하여 효과적인 화면 조작 논리를 추출하는 전이 인식 지식 추출기를 개발했습니다. 이를 통해 지식 추출에 대한 사람의 개입이 필요하지 않습니다. SPA-Bench에서 53.7%, AndroidWorld에서 47.4%의 작업 성공률을 보이며, GUI-explorer는 최첨단 에이전트보다 상당한 개선을 보여줍니다. 새로운 앱에 대해 매개변수 업데이트가 필요하지 않습니다. GUI-explorer는 오픈소스이며 https://github.com/JiuTian-VL/GUI-explorer 에서 공개적으로 이용 가능합니다.