본 논문은 3D 장면 이해를 위해 대규모 언어 모델(LLM)을 활용하는 기존 방식의 한계를 극복하고자, 3D 공간 구조에 적합한 어텐션 마스크 전략인 3D Spatial Language Instruction Mask (3D-SLIM)을 제안합니다. 3D-SLIM은 시퀀셜 바이어스와 제한적인 객체-지시 어텐션을 해결하며, 기하학 기반 마스크와 지시 사항 인지 마스크를 통해 3D 객체의 공간적 관계를 반영하고 사용자 지시에 따라 3D 객체를 처리합니다. 구조 변경이나 추가 파라미터 없이 다양한 3D 장면 언어 작업에서 성능 향상을 보입니다.