본 논문은 자연어로 설명된 물체의 위치를 파악하는 문제를 해결하기 위해, 복잡한 객체 관계를 이해하는 모듈형 접근 방식인 BBQ(Beyond Bare Queries)를 제안합니다. BBQ는 계량적 및 의미적 공간적 에지를 갖는 3D 장면 그래프 표현을 구성하고, 추론적 장면 추론 알고리즘을 통해 대규모 언어 모델을 사람-대리자 인터페이스로 활용합니다. DINO 기반의 강력한 연관성을 사용하여 3D 객체 중심 맵을 구성하고, 고급 광선 추적 알고리즘과 2D 비전-언어 모델을 사용하여 그래프 노드로 설명합니다. Replica 및 ScanNet 데이터셋에서 BBQ는 다른 제로샷 방법에 비해 오픈 보캐뷸러리 3D 의미론적 분할에서 선두적인 성능을 보였으며, 특히 동일한 의미 클래스의 여러 개체가 있는 장면에서 공간 관계 활용의 효과가 뛰어남을 보여줍니다. Sr3D+, Nr3D, ScanRefer 벤치마크에서도 복잡한 질의를 통한 객체 접지에서 기존 최첨단 방법보다 상당한 향상을 보였으며, 로봇 온보드 컴퓨터에서의 실험에서 데이터 처리 속도가 크게 향상되었습니다. 코드는 공개적으로 제공됩니다.