본 논문은 다중 모달 3D 시각 인식 분야에서 기존 연구의 한계를 극복하기 위해 최대 규모의 다중 모달 3D 장면 데이터셋 및 벤치마크인 MMScan을 구축한 연구입니다. MMScan은 계층적 기반 언어 주석을 포함하며, 영역에서 객체 수준으로, 단일 대상에서 대상 간 관계로 이어지는 상향식 논리에 기반하여 공간적 및 속성적 이해의 전체적인 측면을 다룹니다. 강력한 VLMs와 신중하게 설계된 프롬프트를 활용하여 주석을 효율적으로 초기화하고, 사람의 수정을 반복적으로 적용하여 자연스럽고 정확하며 포괄적인 주석을 보장합니다. 기존 3D 스캔 데이터를 기반으로 구축된 MMScan은 109,000개의 객체와 7,700개의 영역에 대한 140만 개의 메타 주석 캡션과 304만 개 이상의 다양한 샘플을 포함하며, 3D 시각적 근거 및 질의응답 벤치마크를 제공합니다. 본 논문에서는 대표적인 기준 모델을 평가하고, 향후 해결해야 할 주요 문제점을 제시하며, MMScan을 사용하여 최첨단 3D 시각적 근거 및 LLMs를 훈련하여 기존 벤치마크와 실제 평가에서 모두 눈에 띄는 성능 향상을 달성했습니다. 코드, 데이터셋 및 벤치마크는 GitHub에서 공개됩니다.