Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li
개요
본 논문은 GUI 환경에서 작동하는 에이전트 GTA1을 제시합니다. GTA1은 사용자의 명령을 GUI 요소와의 상호작용으로 분해하여 작업을 수행합니다. 두 가지 주요 과제, 즉 작업 계획의 모호성 해소와 고해상도 인터페이스에서의 정확한 액션 적용에 초점을 맞춥니다. 모호성 해소를 위해 테스트 시간 스케일링 기법을 도입하여 여러 후보 액션을 동시에 샘플링하고 평가 모델을 통해 최적의 액션을 선택합니다. 정확한 액션 적용을 위해 강화 학습을 활용하여 인터페이스 요소에 대한 성공적인 클릭을 보상함으로써 정확도를 향상시킵니다. 다양한 벤치마크에서 최첨단 성능을 달성하며, 예를 들어 Screenspot-Pro, Screenspot-V2, OSWorld-G에서 각각 50.1%, 92.4%, 67.7%의 정확도를 기록했습니다. OSWorld에서는 45.2%의 작업 성공률을 보였습니다. 코드와 모델은 공개됩니다.
시사점, 한계점
•
시사점:
◦
GUI 에이전트의 작업 계획 모호성 및 액션 적용 정확도 문제에 대한 효과적인 해결 방안 제시