본 논문은 대규모 주석 데이터셋을 이용한 지도 학습 미세 조정(SFT)에 의존하는 기존의 GUI 에이전트용 효과적인 비전 언어 모델(VLM) 학습 방식의 한계를 극복하기 위해 자기 지도 역동성 학습 방식을 제안합니다. 제안된 방식은 GUI 전이쌍으로부터 전이를 일으킨 행동을 추론하여 VLM이 학습하도록 합니다. 이를 통해 사용자 행동과 무관한 변화(예: 배경 새로 고침, 광고)를 무시하고 버튼 및 입력 필드와 같은 실제 기능에 집중할 수 있으며, 사람의 주석 없이도 기존 GUI 경로로부터 훈련 데이터를 쉽게 얻고 자동 오프라인 탐색을 통해 쉽게 확장할 수 있습니다. UI-Shift라는 프레임워크를 통해 자기 지도 강화 학습(RL)으로 VLM 기반 GUI 에이전트를 향상시키며, 기존 데이터셋으로부터 얻은 2,000개의 훈련 샘플만으로 Qwen2.5-VL-3B 및 Qwen2.5-VL-7B VLM을 훈련하여 SFT 기준 및 RL 중 명시적으로 추론 능력을 유도하는 GUI 특정 모델과 비교하여 경쟁력 있거나 우수한 성능을 달성함을 보여줍니다.