Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li
개요
본 논문은 그래픽 사용자 인터페이스(GUI) 에이전트가 다양한 플랫폼에서 시각적 요소와 상호 작용하여 작업을 수행하는 방법을 연구합니다. 사용자의 지시는 일련의 행동 제안으로 분해되며, 각 제안은 GUI와의 상호 작용에 해당합니다. 에이전트는 각 행동 후 업데이트된 GUI 환경을 관찰하여 다음 단계를 계획합니다. 논문에서는 작업 계획의 모호성 해소 및 고해상도 인터페이스에서의 정확한 행동 실행이라는 두 가지 주요 과제를 다룹니다. 이를 위해 GUI Test-time Scaling Agent (GTA1)을 제시하는데, 최적의 행동 제안을 선택하기 위해 테스트 시간 스케일링 방법을 도입하고, 강화 학습(RL)을 활용하여 시각적 요소에 대한 행동 실행 정확도를 향상시킵니다. 실험 결과, 다양한 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
테스트 시간 스케일링 기법을 통해 작업 계획의 모호성을 효과적으로 해결하고 작업 수행 단계를 단축하여 전반적인 성능을 향상시켰습니다.
◦
강화 학습을 활용한 시각적 접지 모델을 통해 고해상도 인터페이스에서의 정확한 행동 실행을 달성했습니다.
◦
다양한 벤치마크에서 최첨단 성능을 달성하여 GUI 에이전트의 성능 향상 가능성을 입증했습니다.