본 논문은 3D 공간 추론을 위한 점 구름(point cloud)을 활용하는 3D 대규모 언어 모델(LLM)의 역할을 종합적으로 평가 및 분석합니다. 점 구름 대신 시각 및 텍스트 데이터를 입력으로 사용하여 LLM의 공간 추론 능력을 평가하고, 이진 공간 관계 이해력을 종합적으로 평가하는 새로운 3D 질의응답(QA) 벤치마크인 ScanReQA를 제안합니다. 실험 결과, 점 구름 입력 없이도 경쟁력 있는 성능을 달성할 수 있으며, 기존 3D LLM은 이진 공간 관계를 이해하는 데 어려움을 겪고, 점 구름의 구조적 좌표를 활용하여 미세한 공간 추론을 수행하는 데 한계가 있음을 밝힙니다. 본 연구는 3D LLM의 발전 방향을 제시하고 다른 모달리티의 기초 모델에 대한 통찰력을 제공합니다. 데이터셋과 재현 가능한 코드는 https://3d-llm.xyz 에서 공개합니다.