본 논문은 로봇 분야에서 특히 중요한 시각적 추론, 특히 공간적 추론을 위해 파노라마 이미지와 3D 포인트 클라우드 정보를 통합하는 새로운 신경-기호 프레임워크를 제안한다. 기존의 비전-언어 모델(VLMs)이 미세한 공간적 추론에 어려움을 겪는 점을 극복하기 위해, 본 연구에서는 신경적 인식과 기호적 추론을 결합하여 공간적 및 논리적 관계를 명시적으로 모델링한다. 이 프레임워크는 객체 감지 및 속성 추출을 위한 인식 모듈과 정확하고 해석 가능한 쿼리를 지원하는 구조적 장면 그래프를 구축하는 추론 모듈로 구성된다. JRDB-Reasoning 데이터셋을 평가한 결과, 혼잡하고 인간이 만든 환경에서 우수한 성능과 신뢰성을 보이며, 로봇 및 내재적 AI 응용 프로그램에 적합한 경량 설계를 유지한다.