Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Grounding Computer Use Agents on Human Demonstrations

Created by
  • Haebom
Category
Empty

저자

Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lu, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar

개요

본 논문은 데스크탑 환경에서 컴퓨터 사용 에이전트의 신뢰성을 구축하기 위해 필요한 핵심 요소인 '그라운딩(grounding)'에 주목하여, 전문가의 시연을 기반으로 구축된 대규모 데스크탑 그라운딩 데이터셋인 GroundCUA를 소개합니다. GroundCUA는 12개 카테고리의 87개 애플리케이션을 포괄하며, 56,000개의 스크린샷과 356만 개 이상의 사람 검증 주석으로 구성되어 있습니다. 이 데이터셋을 활용하여 명령어와 대상 UI 요소를 매핑하는 GroundNext 모델을 개발했으며, 3B 및 7B 규모에서 지도 학습 미세 조정 방식을 통해 5개의 벤치마크에서 SOTA를 달성했습니다. 또한, 강화 학습 후 훈련을 통해 성능을 더욱 향상시켰고, OSWorld 벤치마크에서 o3 플래너를 사용한 에이전트 환경에서 기존 모델과 동등하거나 더 나은 결과를 보였습니다.

시사점, 한계점

시사점:
고품질의 전문가 주도 데이터셋이 일반적인 컴퓨터 사용 에이전트 발전에 중요한 역할을 함을 입증했습니다.
GroundCUA 데이터셋을 통해 개발된 GroundNext 모델은 기존 모델 대비 적은 양의 데이터로도 우수한 성능을 달성했습니다.
강화 학습 후 훈련을 통해 모델 성능을 더욱 향상시킬 수 있음을 보였습니다.
실제 에이전트 환경에서의 성능을 통해 GroundNext의 실용성을 확인했습니다.
한계점:
논문에 구체적인 한계점에 대한 언급은 없지만, 데이터셋의 애플리케이션 및 작업 범위에 제한이 있을 수 있으며, 모델의 일반화 능력에 대한 추가적인 연구가 필요할 수 있습니다.
👍