본 논문은 대형 Vision-Language Model (VLM)로부터 사회적으로 준수하는 내비게이션 지식을 경량 트랜스포머 모델로 증류하는 새로운 방법인 Vision-Language Attention Distillation (Vi-LAD)을 제시합니다. 기존의 전문가 시범이나 사람이 주석을 단 데이터셋에 의존하는 방법과 달리, Vi-LAD는 사전 훈련된 비전-액션 모델의 백본을 활용하여 중간 계층 표현 수준(즉, 어텐션 맵)에서 지식 증류 및 미세 조정을 수행합니다. 이러한 어텐션 맵은 주어진 장면에서 주요 내비게이션 영역을 강조 표시하여 사회적으로 인식하는 동작 계획에 대한 암시적인 안내 역할을 합니다. Vi-LAD는 사전 훈련된 비전-액션 모델에서 추출된 중간 어텐션 맵과 대형 VLM에서 구성된 어텐션 유사 의미 맵을 결합하여 트랜스포머 기반 모델을 미세 조정합니다. 이를 위해 본 논문은 두 소스의 지식을 융합하여 사회적 인식이 향상된 증강된 어텐션 맵을 생성하는 새로운 어텐션 수준 증류 손실을 제시합니다. 이렇게 개선된 어텐션 맵은 사회적으로 인식하는 모델 예측 제어기(MPC) 내에서 주행 가능성 비용 지도로 사용됩니다. Husky 바퀴 달린 로봇을 이용한 실제 세계 실험을 통해 접근 방식을 검증하여 최첨단(SOTA) 내비게이션 방법보다 상당한 개선을 보여줍니다. 결과는 성공률이 최대 14.2%~50% 향상됨을 보여주며, Vi-LAD가 사회적으로 준수하고 효율적인 로봇 내비게이션을 가능하게 하는 효과를 강조합니다.