Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents
Created by
Haebom
저자
Saaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang
개요
Agent S2는 다양한 일반 및 전문 모델에 인지적 책임을 위임하는 새로운 구성 기반의 컴퓨터 사용 에이전트이다. GUI 요소의 정확한 위치 파악을 위한 혼합 지정 기법(Mixture-of-Grounding)과 진화하는 관찰에 따라 여러 시간 척도에서 동적으로 행동 계획을 개선하는 사전적 계층적 계획(Proactive Hierarchical Planning)을 제안한다. 다양한 컴퓨터 사용 벤치마크에서 최첨단 성능을 달성하며, OSWorld 15단계 및 50단계 평가에서 기존 최고 에이전트(Claude Computer Use 및 UI-TARS) 대비 각각 18.9% 및 32.7%의 성능 향상을 보였다. 또한 WindowsAgentArena와 AndroidWorld에서도 기존 최고 성능을 상당히 능가하는 결과를 나타냈다.
시사점, 한계점
•
시사점:
◦
다양한 일반 및 전문 모델을 활용한 구성 기반 접근 방식을 통해 컴퓨터 사용 에이전트의 성능을 크게 향상시켰다.
◦
혼합 지정 기법과 사전적 계층적 계획을 통해 GUI 요소의 정확한 위치 파악과 장기 계획 수립의 어려움을 해결했다.
◦
OSWorld, WindowsAgentArena, AndroidWorld 등 다양한 벤치마크에서 최첨단 성능을 달성하며 우수한 일반화 성능을 입증했다.