Sign In

GUI Knowledge Bench: Revealing the Knowledge Gap Behind VLM Failures in GUI Tasks

Created by
  • Haebom
Category
Empty

저자

Chenrui Shi, Zedong Yu, Zhi Gao, Ruining Feng, Enqi Liu, Yuwei Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li

개요

대형 시각 언어 모델(VLM)이 GUI 작업 자동화에서 발전했지만, 여전히 인간에 미치지 못한다. 본 논문은 이러한 격차가 핵심 GUI 지식의 부족에서 기인한다고 가정하며, 기존 훈련 방식(지도 미세 조정 및 강화 학습 등)만으로는 충분히 해결할 수 없다고 주장한다. GUI 작업 실행의 일반적인 실패 패턴을 분석하여, GUI 지식을 (1) 인터페이스 인식, (2) 상호 작용 예측, (3) 지침 이해의 세 가지 차원으로 추출한다. 또한 6개 플랫폼(Web, Android, MacOS, Windows, Linux, IOS)과 292개의 애플리케이션에 걸쳐 다양한 선택 및 예/아니오 질문이 포함된 GUI Knowledge Bench를 소개한다. 평가 결과, 현재 VLM은 위젯 기능을 식별하지만 시스템 상태 인식, 작업 예측, 작업 완료 확인에 어려움을 겪는 것으로 나타났다. 실제 GUI 작업에 대한 실험을 통해 GUI 지식과 작업 성공 간의 밀접한 연관성을 추가로 입증했다.

시사점, 한계점

시사점:
GUI 지식을 체계적으로 평가하는 프레임워크 제공.
다운스트림 훈련 전에 더 큰 잠재력을 가진 VLM 선택 지원.
더 강력한 GUI 에이전트 구축에 대한 통찰력 제공.
한계점:
(논문 내용에 명시된 한계점은 없음)
👍