자원 제약 환경에서 그래픽 사용자 인터페이스(GUI) 에이전트의 성능 향상을 위해 널리 사용되는 지각 기반 사전 훈련(특히 접지 기법)의 한계를 해결하기 위해, 쿼리 추론이라는 쿼리 중심 피벗 접근 방식을 제안합니다. 이 방법은 스크린샷과 관련 요소 좌표로부터 잠재적인 사용자 쿼리를 추론하여 좌표 이해도를 높이고 추론 작업과의 정합성을 향상시킵니다. 실험 결과, 제한된 훈련 데이터 환경에서 기존 접지 기법보다 우수한 성능을 보이며, 대규모 접지 기반 OS-Atlas와 비교하여 0.1% 미만의 훈련 데이터로도 비슷하거나 더 나은 성능을 달성합니다. 추가적인 의미 정보 통합을 통한 추론 형식 개선의 효과도 확인했습니다. 코드는 공개적으로 제공됩니다.