본 논문은 시각 언어 모델(VLMs) 기반 모바일 운영 보조 시스템의 효율성 향상을 위한 새로운 아키텍처인 CHOP(Constrained High-Frequency Optimized Planning)을 제안합니다. 기존 VLM 기반 모바일 보조 시스템은 작업, 하위 작업, 동작의 세 수준으로 구성되는데, 하위 작업 수준에서 비효율적인 하위 작업으로 인해 상위 작업 완료에 어려움을 겪는 문제점을 지적합니다. CHOP는 GUI 환경에서의 하위 작업 분해 능력이 부족한 VLM의 한계를 극복하기 위해 사람이 계획한 하위 작업을 기반 벡터로 활용하여 효과적이고 효율적인 하위 작업 계획을 수립합니다. 20개의 앱을 대상으로 영어와 중국어 환경에서 평가한 결과, 효과성과 효율성 모두에서 상당한 개선을 보였습니다. 데이터셋과 코드는 공개적으로 제공됩니다.