DepthVision은 시각 입력이 저하된 환경에서도 자율 주행을 가능하게 하기 위해, LiDAR 데이터를 활용하여 Vision-Language Models (VLMs)의 성능을 향상시키는 다중 모달 프레임워크입니다. DepthVision은 LiDAR point cloud로부터 RGB와 유사한 이미지를 생성하고, Luminance-Aware Modality Adaptation (LAMA) 모듈을 통해 실제 카메라 이미지와 합성된 이미지를 동적으로 융합합니다. 이는 어떠한 아키텍처 변경이나 재학습 없이 기존 VLMs의 시각적 인터페이스를 통해 LiDAR 데이터를 활용할 수 있게 하며, 특히 저조도 환경에서 성능을 크게 향상시킵니다.