Computer Use Agents (CUAs)는 디지털 인터페이스를 자율적으로 조작하도록 설계되었지만, 주어진 작업이 완료되었는지 여부를 안정적으로 판단하는 데 종종 실패합니다. 본 연구는 스크린샷과 작업 설명을 기반으로 작업 완료 여부를 직접 평가하기 위해 시각-언어 모델을 사용하는 자율 평가 및 피드백 프레임워크를 제시합니다. 42개의 내장 macOS 응용 프로그램과 다양한 시나리오에 걸쳐 1,260개의 사람 레이블링된 작업으로 구성된 데이터셋을 사용했습니다. 이 프레임워크는 작업 성공 감지에서 최대 73%의 정확도를 달성했으며, 평가자 피드백을 적용했을 때 전체 작업 성공률에서 평균 27%의 상대적 개선을 보였습니다.