TransBench: Breaking Barriers for Transferable Graphical User Interface Agents in Dynamic Digital Environments
Created by
Haebom
저자
Yuheng Lu, Qian Yu, Hongru Wang, Zeming Liu, Wei Su, Yanping Liu, Yuhang Guo, Maocheng Liang, Yunhong Wang, Haifeng Wang
개요
본 논문은 자연어 명령을 통해 디지털 인터페이스를 자율적으로 작동하는 GUI 에이전트의 전이 학습 능력을 평가하고 향상시키기 위한 새로운 벤치마크인 TransBench를 제안합니다. TransBench는 버전 업데이트(cross-version), 플랫폼 간(cross-platform: iOS, Android, Web), 그리고 애플리케이션 간(cross-application) 전이 학습 능력을 평가하기 위해 15개의 다양한 기능을 가진 앱 카테고리와 여러 버전 및 플랫폼의 필수 페이지들을 포함하고 있습니다. 실험 결과, TransBench를 통해 GUI 에이전트의 grounding 정확도가 향상되었음을 보여주며, 동적인 실제 환경에서 GUI 에이전트의 실용성을 강조합니다. 코드와 데이터는 GitHub에서 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
GUI 에이전트의 전이 학습 능력을 종합적으로 평가할 수 있는 최초의 벤치마크 TransBench 제시.
◦
버전, 플랫폼, 애플리케이션 간 전이 학습 성능 향상을 위한 방향 제시.
◦
실제 환경에서 GUI 에이전트의 실용성을 높이는 데 기여.
◦
공개된 코드와 데이터를 통해 GUI 에이전트 연구의 발전에 기여.
•
한계점:
◦
TransBench에 포함된 앱 카테고리와 페이지의 수가 제한적일 수 있음. 다양한 앱과 상황을 더 포괄적으로 다루는 확장이 필요할 수 있음.
◦
특정 유형의 인터페이스나 작업에 편향되어 있을 가능성 존재. 다양한 유형의 인터페이스와 작업에 대한 일반화 능력을 더욱 강화해야 함.
◦
현재 성능 향상 결과가 TransBench 자체의 특징에 얼마나 기인하는지에 대한 추가 분석이 필요.