HoloLLM은 LiDAR, 적외선, mmWave 레이더, WiFi와 같은 다양한 감각 모드를 통합하는 다중 모달 대규모 언어 모델(MLLM)입니다. 기존의 Vision-Language Model(VLM)이 시각 데이터에 의존하여 실제 환경의 폐색, 조명 불량 또는 개인 정보 보호 제약에 취약한 것과 달리, HoloLLM은 다양한 환경에서 원활한 인간 인지 및 추론을 가능하게 합니다. 희귀 센서에 대한 정렬된 모달-텍스트 데이터 부족과 물리적 신호 표현의 이질성이라는 두 가지 주요 과제를 해결하기 위해, Universal Modality-Injection Projector (UMIP)를 설계하여 미세 조정된 텍스트 정렬 기능을 통해 사전 정렬된 모달 임베딩을 향상시켰습니다. 또한, 감지 데이터 세트에 대한 쌍으로 된 텍스트 주석을 생성하기 위해 인간-VLM 협업 데이터 큐레이션 파이프라인을 도입했습니다. 두 개의 새롭게 구성된 벤치마크에 대한 광범위한 실험 결과, HoloLLM은 기존 MLLM을 상당히 능가하며 언어 기반 인간 감지 정확도를 최대 30%까지 향상시켰습니다.