AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents
Created by
Haebom
저자
Christopher Rawles, Sarah Clinckemaillie, Yifan Chang, Jonathan Waltz, Gabrielle Lau, Marybeth Fair, Alice Li, William Bishop, Wei Li, Folawiyo Campbell-Ajala, Daniel Toyama, Robert Berry, Divya Tyamagundlu, Timothy Lillicrap, Oriana Riva
개요
본 논문은 인간의 생산성과 애플리케이션 접근성을 향상시키기 위해 컴퓨터를 제어하여 인간의 작업을 실행하는 자율 에이전트에 대한 연구를 제시합니다. 기존의 정적인 테스트 집합을 제공하는 상호 작용 환경과 달리, 본 논문에서는 20개의 실제 Android 앱에서 116개의 프로그래밍 작업에 대한 보상 신호를 제공하는 완전 기능적인 Android 환경인 AndroidWorld를 제시합니다. AndroidWorld는 매개변수화되고 자연어로 무제한 방식으로 표현되는 동적으로 생성되는 작업을 제공하여 훨씬 더 크고 현실적인 작업 세트에 대한 테스트를 가능하게 합니다. 각 작업에는 장치의 시스템 상태를 수정하고 검사하는 전용 초기화, 성공 확인 및 해체 로직이 포함되어 재현성을 보장합니다. 기준 에이전트를 사용하여 AndroidWorld를 테스트하고 벤치마크에 대한 초기 결과를 제공하며, 최고 성능 에이전트는 AndroidWorld 작업의 30.6%를 완료했습니다. 또한 인기 있는 데스크톱 웹 에이전트를 Android에서 작동하도록 적용하여 모바일 환경에서 효율성이 떨어짐을 확인하고, 작업 변형이 에이전트 성능에 상당한 영향을 미칠 수 있음을 보여주는 강건성 분석을 수행했습니다. AndroidWorld와 실험은 github.com/google-research/android_world에서 이용 가능합니다.
시사점, 한계점
•
시사점:
◦
현실적이고 재현 가능한 벤치마크를 제공하는 AndroidWorld라는 새로운 Android 환경을 제시.
◦
동적으로 생성되는 다양한 작업을 통해 대규모 실제 작업 테스트 가능.
◦
에이전트 성능 평가 시 작업 변화에 따른 강건성 분석의 중요성 제시.
◦
모바일 환경에 특화된 에이전트 개발 필요성 제기.
•
한계점:
◦
최고 성능 에이전트가 AndroidWorld 작업의 30.6%만 완료, 향후 개선 여지가 큼.
◦
데스크톱 웹 에이전트의 Android 환경 적용 시 효율성 저하 문제 발생.
◦
AndroidWorld의 벤치마크가 아직 초기 단계이며, 더 많은 작업 및 앱 추가 필요.