본 논문은 3D 시각적 그라운딩을 위한 효율적인 모델을 제안합니다. 기존 방법들은 RGB 이미지, 텍스트, 3D point cloud에 대해 각각 별도의 인코더를 사용하여 모델이 크고 복잡하며 훈련이 비효율적이라는 문제점을 가지고 있습니다. 본 논문에서는 2D 사전 학습된 다중 모달 네트워크를 활용하여 세 가지 모달리티를 통합적으로 처리하는 방법을 제시합니다. 2D CLIP 모델에 어댑터 기반 미세 조정을 적용하여 삼중 모달리티 설정에 효과적으로 적응하고, Geometric-Aware 2D-3D Feature Recovery and Fusion (GARF) 모듈을 통해 point cloud와 이미지의 기하학적 다중 스케일 특징을 융합합니다. 텍스트 특징을 통합하여 최종 모달리티 융합을 수행하고, 다중 모달 디코더를 통해 깊이 있는 교차 모달 이해를 가능하게 합니다. 결과적으로, 매개변수 수를 약 58% 줄이면서 3D 탐지 작업에서 6.52%, 3D 시각적 그라운딩 작업에서 6.25%의 성능 향상을 달성합니다.