본 논문은 대규모 언어 모델(LLM)의 3D 물리적 세계 이해 능력 향상이라는 과제에 대해 다룬다. 기존의 3D 데이터 부족 문제를 해결하기 위해, 데이터 효율적인 3D 점-언어 이해라는 새로운 과제를 제시하고, GreenPLM이라는 모델을 제안한다. GreenPLM은 3D 데이터 부족을 풍부한 텍스트 데이터로 보완하는 전략을 사용한다. 기존의 CLIP에서 영감을 얻어 3D 점 구름과 텍스트를 매핑하고, 6백만 개의 3D 객체에 대한 자유 텍스트 설명을 생성하여 텍스트 공간을 확장한다. 세 단계의 훈련 전략과 제로 파라미터 크로스 어텐션 모듈을 통해 모달 간의 효율적인 정렬을 달성한다. 실험 결과, GreenPLM은 기존 최첨단 모델 대비 12%의 3D 훈련 데이터만으로도 우수한 성능을 보이며, 텍스트 데이터만으로도 경쟁력 있는 성능을 달성함을 보여준다.