본 논문은 3D 시각적 접지(3DVG)에서 자연어 텍스트로 참조되는 3D 장면 내의 개체를 찾는 작업에 대해 다룬다. 최근 연구는 LLM 기반의 3DVG 데이터셋 확장에 집중했지만, 이러한 데이터셋은 영어로 표현 가능한 모든 종류의 질문을 포함하지 못한다는 한계가 있다. 따라서 본 논문은 3DVG 프롬프트를 언어적으로 분석하는 프레임워크를 제안하고, 다양한 언어 패턴에 대한 시각적 접지 방법을 평가하기 위한 진단 데이터셋인 ViGiL3D를 소개한다. 기존의 개방형 어휘 3DVG 방법들을 평가하여 실제 응용을 위한 더욱 어렵고 분포 외 질문에 대한 이해와 목표 식별 능력이 아직 부족함을 보여준다.