Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

"Are We Done Yet?": A Vision-Based Judge for Autonomous Task Completion of Computer Use Agents

Created by
  • Haebom
Category
Empty

저자

Marta Sumyk, Oleksandr Kosovan

개요

Computer Use Agents (CUAs)는 디지털 인터페이스를 자율적으로 조작하도록 설계되었지만, 주어진 작업이 완료되었는지 여부를 안정적으로 판단하는 데 종종 실패합니다. 본 연구는 스크린샷과 작업 설명을 기반으로 작업 완료 여부를 직접 평가하기 위해 시각-언어 모델을 사용하는 자율 평가 및 피드백 프레임워크를 제시합니다. 42개의 내장 macOS 응용 프로그램과 다양한 시나리오에 걸쳐 1,260개의 사람 레이블링된 작업으로 구성된 데이터셋을 사용했습니다. 이 프레임워크는 작업 성공 감지에서 최대 73%의 정확도를 달성했으며, 평가자 피드백을 적용했을 때 전체 작업 성공률에서 평균 27%의 상대적 개선을 보였습니다.

시사점, 한계점

시사점:
시각 기반 평가는 자율 컴퓨터 사용 에이전트의 신뢰성과 자기 수정 능력을 향상시키는 효과적인 피드백 메커니즘으로 작용할 수 있습니다.
시각-언어 모델을 활용하여 작업 완료 여부를 평가하는 자율적 평가 및 피드백 프레임워크를 제시합니다.
다양한 macOS 응용 프로그램과 작업 시나리오를 포괄하는 데이터셋을 구축했습니다.
한계점:
구체적인 한계점은 논문 내용에서 명시되지 않았습니다.
👍