본 논문은 자원 제약 환경에서 그래픽 사용자 인터페이스(GUI) 에이전트의 성능 향상을 위해 쿼리 추론(query inference)이라는 쿼리 중심 피벗 접근 방식을 제안합니다. 기존의 좌표 기반 그라운딩과 행동 기반 추론 간의 형식 불일치 문제를 해결하기 위해, 스크린샷과 관련 요소 좌표로부터 잠재적인 사용자 쿼리를 추론하여 좌표에 대한 이해도를 높이고 추론 작업과의 정합성을 향상시킵니다. 실험 결과, 제한된 학습 데이터 환경에서 기존 그라운딩 기법보다 우수한 성능을 보이며, 대규모 그라운딩 기법인 OS-Atlas와 비교했을 때 0.1% 미만의 학습 데이터로도 비슷하거나 더 나은 성능을 달성함을 보여줍니다. 추가적으로, 추론 형식의 영향을 분석하고 입력에 추가적인 의미 정보를 통합하는 것이 추론 성능을 더욱 향상시킨다는 것을 보여줍니다. 코드는 공개적으로 제공됩니다.