Sign In

Smoothing Grounding and Reasoning for MLLM-Powered GUI Agents with Query-Oriented Pivot Tasks

Created by
  • Haebom
Category
Empty

저자

Zongru Wu, Pengzhou Cheng, Zheng Wu, Tianjie Ju, Zhuosheng Zhang, Gongshen Liu

개요

자원 제약 환경에서 그래픽 사용자 인터페이스(GUI) 에이전트의 성능 향상을 위해 널리 사용되는 지각 기반 사전 훈련(특히 접지 기법)의 한계를 해결하기 위해, 쿼리 추론이라는 쿼리 중심 피벗 접근 방식을 제안합니다. 이 방법은 스크린샷과 관련 요소 좌표로부터 잠재적인 사용자 쿼리를 추론하여 좌표 이해도를 높이고 추론 작업과의 정합성을 향상시킵니다. 실험 결과, 제한된 훈련 데이터 환경에서 기존 접지 기법보다 우수한 성능을 보이며, 대규모 접지 기반 OS-Atlas와 비교하여 0.1% 미만의 훈련 데이터로도 비슷하거나 더 나은 성능을 달성합니다. 추가적인 의미 정보 통합을 통한 추론 형식 개선의 효과도 확인했습니다. 코드는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
제한된 자원 환경에서 GUI 에이전트의 추론 성능 향상에 효과적인 새로운 접근 방식(쿼리 추론) 제시.
소량의 훈련 데이터로도 대규모 모델과 유사하거나 우수한 성능 달성.
좌표 기반 접지와 행동 기반 추론 간의 불일치 문제 해결.
추가적인 의미 정보 통합을 통한 성능 향상 가능성 제시.
공개된 코드를 통한 재현성 및 확장성 확보.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 실험 필요.
다양한 유형의 GUI 및 추론 작업에 대한 로버스트니스 평가 필요.
의미 정보 통합의 최적 방법 및 한계에 대한 추가 연구 필요.
👍