GUI 기반의 자연어 지시를 GUI 상의 특정 동작으로 매핑하는 기술은 컴퓨터 사용 에이전트 개발에 있어 중요한 병목 지점이다. 기존 벤치마크는 짧은 지시 표현으로 과도하게 단순화하여, 실제 사용 환경에서 요구되는 소프트웨어 상식, 레이아웃 이해, 세밀한 조작 능력 등 복잡성을 포착하지 못한다. 이 연구에서는 OSWorld-G 벤치마크를 소개하고, 텍스트 매칭, 요소 인식, 레이아웃 이해, 정밀 조작 등 다양한 작업 유형에 걸쳐 564개의 정밀 주석 처리된 샘플을 제공한다. 또한, 대규모 컴퓨터 사용 기반 데이터셋 Jedi를 합성하여 공개하며, 이 데이터셋은 400만 개의 예제를 포함한다. Jedi에서 훈련된 다중 규모 모델은 ScreenSpot-v2, ScreenSpot-Pro 및 OSWorld-G에서 기존 접근 방식을 능가하는 성능을 보인다. Jedi를 통한 향상된 기반 기술은 일반적인 기반 모델의 에이전트 능력을 향상시키며, OSWorld에서 5%에서 27%로 성능을 개선한다.
시사점, 한계점
•
시사점:
◦
OSWorld-G 벤치마크를 통해 실제 사용 환경과 유사한 복잡한 GUI 기반 작업을 평가할 수 있는 환경 제공
◦
Jedi 데이터셋을 통해 대규모 데이터 기반의 학습 가능성 제시 및 다양한 모델의 성능 향상 입증
◦
Jedi 기반 모델을 통해 일반적인 기반 모델의 에이전트 능력 향상
◦
특정 인터페이스 요소에 대한 전문 데이터 결합을 통해 새로운 인터페이스에 대한 일반화 가능성 확인