본 논문은 사용자 인터페이스(UI) 트래젝토리를 관찰하여 사용자의 세부적인 의도를 추론하는 새로운 작업 목표 식별 과제를 제안합니다. 이를 위해 UI 환경 내에서 두 의도 설명이 같은 의미로 간주될 수 있는지 평가하는 새로운 평가 방법론을 제시합니다. Android 및 웹 데이터셋을 사용하여 실험을 진행하며, GPT-4와 Gemini-1.5 Pro와 같은 최첨단 모델과 인간의 성능을 비교합니다. 실험 결과, Gemini와 GPT 모두 인간의 성능보다 낮은 성능을 보여주었으며, 제안된 과제의 어려움과 향상의 여지가 큼을 보여줍니다. 본 연구는 UI 트래젝토리 내에서의 목표 식별의 중요성을 강조하며, 이 분야의 추가 탐구 및 발전을 위한 기반을 제공합니다.