본 논문은 자연어를 통해 인간과 상호 작용하는 로봇의 응용 분야 중 하나인 Referring Grasp Synthesis (RGS)에 초점을 맞추고 있습니다. RGS는 텍스트 질의를 받아 로봇 작업 공간에서 지시된 물체를 조작하기 위한 안정적인 그립 자세를 결정하는 과정입니다. 이를 위해 시각적 기반 설정과 그립 자세 추정 두 단계를 거치며, 본 논문에서는 복잡하고 어지러운 환경에서 여러 개의 동일한 물체가 존재하는 경우의 비교가 부족하다는 점을 지적합니다. 따라서 본 논문은 계층적 Featurewise Linear Modulation (FiLM)을 적용하여 이미지와 텍스트 임베딩을 융합함으로써 복잡한 속성이 풍부한 텍스트 질의에 대한 시각적 기반 설정을 향상시키는 HiFi-CS 모델을 제시합니다. HiFi-CS는 경량 디코더와 고정된 VLM을 결합하여 폐쇄형 어휘 설정에서 경쟁 기준 모델보다 성능이 우수하며, 크기는 100배 작습니다. 또한 GroundedSAM과 같은 열린 집합 객체 검출기를 효과적으로 안내하여 개방형 어휘 성능을 향상시킬 수 있습니다. 7자유도 로봇 팔을 사용한 실제 RGS 실험을 통해 15개의 테이블톱 장면에서 90.33%의 시각적 기반 설정 정확도를 달성했습니다.