본 논문은 2D 이미지 기반 Vision Foundation Model (VFM)의 일반화된 특징을 3D LiDAR 기반 모델로 전이하기 위한 새로운 자기 지도 학습 기반 cross-modal 지식 증류(KD) 프레임워크인 CleverDistiller를 제안합니다. 기존 연구들이 복잡한 손실 함수, 의사 의미론적 지도, 또는 의미 분할에만 국한된 지식 전이 등의 한계를 가지는 것과 달리, CleverDistiller는 단순하면서도 효과적인 설계를 통해 다층 퍼셉트론(MLP) 투영 헤드와 직접적인 특징 유사성 손실을 사용하여 복잡한 의미적 의존성을 학습합니다. 또한, 의사 의미론적 지도 없이 VFM으로부터 직접적인 지식 전이를 가능하게 하며, 점유율 예측이라는 보조적인 자기 지도 학습 작업을 통해 의미론적 지식과 3D 공간적 추론 능력을 향상시킵니다. 자율 주행 벤치마크 실험 결과, CleverDistiller는 의미 분할 및 3D 객체 탐지에서 최첨단 성능을 달성하며, 특히 적은 데이터로 미세 조정할 때 최대 10% mIoU 향상을 보였습니다.