본 논문은 다양한 GUI 환경(웹사이트, 데스크탑, 모바일)에서 자연어로 설명된 작업을 수행하는 자율 에이전트 개발에 중점을 둔 멀티모달 언어 모델(MLM)을 위한 새로운 벤치마크 프레임워크인 Crab을 소개한다. 기존 벤치마크의 한계인 단일 환경 집중, 세부적이고 일반화된 평가 방법 부족, 작업 및 평가자 구성의 복잡성을 극복하기 위해, Crab은 교차 환경 작업을 지원하고 그래프 기반의 세분화된 평가 방법과 효율적인 작업 및 평가자 구성 메커니즘을 통합한다. Python 인터페이스를 통해 다양한 환경으로 확장이 용이하며, 데스크탑과 모바일 환경에서 120개의 작업으로 구성된 Crab Benchmark-v0을 제시하고, GPT-4o를 포함한 네 가지 고급 MLM을 단일 및 다중 에이전트 시스템 구성으로 평가하여 GPT-4o 단일 에이전트가 38.01%의 완료율로 최고 성능을 달성함을 보여준다. 모든 프레임워크 코드, 에이전트 코드 및 작업 데이터셋은 공개적으로 제공된다.
시사점, 한계점
•
시사점:
◦
교차 환경 작업을 지원하는 최초의 에이전트 벤치마크 프레임워크 제공
◦
그래프 기반의 세분화된 평가 방법과 효율적인 작업 및 평가자 구성 메커니즘 제시
◦
다양한 환경(데스크탑, 모바일)에서의 MLM 에이전트 성능 비교 및 분석 가능
◦
공개된 코드와 데이터셋을 통해 MLM 에이전트 연구 활성화 기여
•
한계점:
◦
현재 벤치마크는 120개의 작업으로 구성되어 있으며, 더욱 다양하고 광범위한 작업 추가 필요
◦
평가 방법의 세분화에도 불구하고, 실제 사용자의 경험과 완벽히 일치하는 평가는 어려움
◦
특정 MLM에 대한 의존성 존재, 다른 MLM 모델을 추가적으로 테스트하고 비교하여 일반화 성능 평가 필요