본 논문은 다중 모달 대규모 언어 모델(MLLMs)의 3D 비전 능력을 향상시키는 새로운 시각적 프롬프트 방법인 3DAxisPrompt를 제안합니다. 3DAxisPrompt는 Segment Anything Model (SAM)로 생성된 3D 좌표축과 마스크를 활용하여 MLLMs에 명시적인 기하학적 사전 정보를 제공함으로써, 기존의 2D 기반 추론 능력을 실제 3D 환경으로 확장합니다. GPT-4o를 대상으로 다양한 시각적 프롬프트 형식을 조사하여 3D 이해 능력의 잠재력과 한계를 밝히고, ScanRefer, ScanNet, FMB, nuScene 데이터셋을 사용하여 광범위한 정량적 및 정성적 실험을 수행합니다. 실험 결과, 3DAxisPrompt를 활용한 MLLMs는 실제 환경에서 객체의 3D 위치를 효과적으로 인식할 수 있음을 보여주지만, 모든 3D 작업에 대해 단일 프롬프트 엔지니어링 접근 방식이 항상 최상의 결과를 제공하는 것은 아님을 확인합니다.