본 논문은 대규모 언어 모델(LLM)을 3D 공간 이해에 통합하는 방법에 대한 종합적인 검토를 제시합니다. 로보틱스, 자율 주행, 가상 현실, 의료 영상과 같은 실제 응용 분야에서 3D 공간 이해의 중요성을 강조하며, 기존 컴퓨터 비전 방법을 능가할 가능성을 보이는 LLM의 활용에 초점을 맞춥니다. 이 논문은 이미지 기반, 점 구름 기반, 그리고 하이브리드 모달리티 기반의 세 가지 범주로 기존 방법들을 분류하는 분류 체계를 제안하고, 각 범주에 따른 대표적인 방법들을 데이터 표현, 아키텍처 수정, 그리고 텍스트와 3D 모달리티를 연결하는 훈련 전략 측면에서 체계적으로 검토합니다. 마지막으로, 데이터셋 부족과 계산상의 어려움 등 현재의 한계점을 논의하고, 공간 인지, 다중 모달리티 융합, 그리고 실제 응용 분야에서 유망한 연구 방향을 제시합니다.