Sign In

Smoothing Grounding and Reasoning for MLLM-Powered GUI Agents with Query-Oriented Pivot Tasks

Created by
  • Haebom
Category
Empty

저자

Zongru Wu, Pengzhou Cheng, Zheng Wu, Tianjie Ju, Zhuosheng Zhang, Gongshen Liu

개요

본 논문은 자원 제약 환경에서 그래픽 사용자 인터페이스(GUI) 에이전트의 성능 향상을 위해 쿼리 추론(query inference)이라는 쿼리 중심 피벗 접근 방식을 제안합니다. 기존의 좌표 기반 그라운딩과 행동 기반 추론 간의 형식 불일치 문제를 해결하기 위해, 스크린샷과 관련 요소 좌표로부터 잠재적인 사용자 쿼리를 추론하여 좌표에 대한 이해도를 높이고 추론 작업과의 정합성을 향상시킵니다. 실험 결과, 제한된 학습 데이터 환경에서 기존 그라운딩 기법보다 우수한 성능을 보이며, 대규모 그라운딩 기법인 OS-Atlas와 비교했을 때 0.1% 미만의 학습 데이터로도 비슷하거나 더 나은 성능을 달성함을 보여줍니다. 추가적으로, 추론 형식의 영향을 분석하고 입력에 추가적인 의미 정보를 통합하는 것이 추론 성능을 더욱 향상시킨다는 것을 보여줍니다. 코드는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
자원 제약 환경에서 GUI 에이전트의 추론 성능 향상에 기여하는 새로운 접근 방식 제시.
기존 그라운딩 기법 대비 적은 학습 데이터로도 우수한 성능 달성.
쿼리 추론을 통해 좌표 기반 그라운딩과 행동 기반 추론 간의 간극 해소.
추가적인 의미 정보 통합을 통한 추론 성능 향상 가능성 제시.
공개된 코드를 통해 재현성 및 확장성 확보.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 종류의 GUI 및 작업에 대한 성능 평가가 더 필요함.
특정 유형의 GUI 또는 추론 작업에 편향될 가능성 존재.
추가 의미 정보의 질과 양에 따른 성능 변화에 대한 심층적인 분석 필요.
👍