본 논문은 GUI 조작을 자동으로 수행하는 AI 에이전트 개발의 어려움을 해결하기 위해, 확장된 instruction set으로 에이전트를 훈련시키는 방법을 제시합니다. 기존의 행동 복제 방식이 고품질의 방대한 데이터를 필요로 하는 문제를 해결하기 위해, STEVE라는 단계별 검증 파이프라인을 설계했습니다. STEVE는 대규모 instruction set을 기반으로 초기 에이전트로 데이터를 수집하고, GPT-4를 이용하여 각 단계의 정확성을 검증하여 이진 레이블을 부여합니다. 마지막으로 Kahneman and Tversky Optimization을 활용하여 이진 단계별 레이블로 에이전트를 최적화합니다. 실험 결과, STEVE는 기존의 지도 학습 방식보다 우수한 성능을 보이며, 7B 비전-언어 모델을 WinAgentArena 환경에서 효율적으로 훈련하여 최고 성능을 달성했습니다.