TransBench: Breaking Barriers for Transferable Graphical User Interface Agents in Dynamic Digital Environments
Created by
Haebom
저자
Yuheng Lu, Qian Yu, Hongru Wang, Zeming Liu, Wei Su, Yanping Liu, Yuhang Guo, Maocheng Liang, Yunhong Wang, Haifeng Wang
개요
본 논문은 자연어 명령을 통해 디지털 인터페이스를 자율적으로 조작하는 GUI 에이전트의 전이 학습 능력 향상을 위한 새로운 벤치마크인 TransBench를 제안한다. 기존 GUI 에이전트는 버전 업데이트나 다양한 플랫폼 및 애플리케이션에 걸쳐 작업을 수행하는 실제 환경의 동적이고 상호 연결된 특성에 적응하는 데 어려움을 겪는다. TransBench는 버전 간 전이, 플랫폼 간 전이 (iOS, Android, 웹), 애플리케이션 간 전이라는 세 가지 핵심 차원에 걸쳐 GUI 에이전트의 전이 성능을 체계적으로 평가하고 향상시키도록 설계되었다. 15개의 다양한 기능을 가진 앱 카테고리와 여러 버전 및 플랫폼의 필수 페이지를 포함하여 견고한 평가를 가능하게 한다. 실험 결과, TransBench를 통해 GUI 에이전트의 grounding 정확도가 크게 향상되었음을 보여주며, 동적인 실제 환경에서 GUI 에이전트의 실용성을 입증한다. 코드와 데이터는 Github에서 공개될 예정이다.
시사점, 한계점
•
시사점:
◦
GUI 에이전트의 실제 세계 적용 가능성을 높이는 새로운 벤치마크 TransBench 제시.
◦
버전, 플랫폼, 애플리케이션 간 전이 성능 향상을 위한 체계적인 평가 기준 제공.
◦
다양한 앱 카테고리와 버전, 플랫폼을 포함한 풍부한 데이터셋 제공.
◦
실험 결과를 통해 TransBench의 유용성과 GUI 에이전트 성능 향상 효과 입증.
◦
공개된 코드와 데이터를 통한 지속적인 연구 및 개발 가능성 확보.
•
한계점:
◦
TransBench의 앱 카테고리 및 데이터셋의 포괄성에 대한 추가적인 검토 필요.
◦
실제 사용자 환경의 복잡성을 완벽하게 반영하지 못할 가능성.
◦
특정 플랫폼이나 애플리케이션에 대한 편향이 존재할 가능성.
◦
TransBench의 평가 지표가 GUI 에이전트의 모든 측면을 완벽하게 포괄하지 못할 수 있음.