Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments

Created by
  • Haebom
Category
Empty

저자

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh Manocha

개요

본 논문은 대형 Vision-Language Model (VLM)로부터 사회적으로 준수하는 내비게이션 지식을 경량 트랜스포머 모델로 증류하는 새로운 방법인 Vision-Language Attention Distillation (Vi-LAD)을 제시합니다. 기존의 전문가 시범이나 사람이 주석을 단 데이터셋에 의존하는 방법과 달리, Vi-LAD는 사전 훈련된 비전-액션 모델의 백본을 활용하여 중간 계층 표현 수준(즉, 어텐션 맵)에서 지식 증류 및 미세 조정을 수행합니다. 이러한 어텐션 맵은 주어진 장면에서 주요 내비게이션 영역을 강조 표시하여 사회적으로 인식하는 동작 계획에 대한 암시적인 안내 역할을 합니다. Vi-LAD는 사전 훈련된 비전-액션 모델에서 추출된 중간 어텐션 맵과 대형 VLM에서 구성된 어텐션 유사 의미 맵을 결합하여 트랜스포머 기반 모델을 미세 조정합니다. 이를 위해 본 논문은 두 소스의 지식을 융합하여 사회적 인식이 향상된 증강된 어텐션 맵을 생성하는 새로운 어텐션 수준 증류 손실을 제시합니다. 이렇게 개선된 어텐션 맵은 사회적으로 인식하는 모델 예측 제어기(MPC) 내에서 주행 가능성 비용 지도로 사용됩니다. Husky 바퀴 달린 로봇을 이용한 실제 세계 실험을 통해 접근 방식을 검증하여 최첨단(SOTA) 내비게이션 방법보다 상당한 개선을 보여줍니다. 결과는 성공률이 최대 14.2%~50% 향상됨을 보여주며, Vi-LAD가 사회적으로 준수하고 효율적인 로봇 내비게이션을 가능하게 하는 효과를 강조합니다.

시사점, 한계점

시사점:
대형 VLM에서 경량 모델로 사회적으로 준수하는 내비게이션 지식을 효과적으로 증류하는 새로운 방법 제시.
어텐션 맵을 활용하여 암시적인 안내를 제공, 데이터셋에 대한 의존도 감소.
실제 로봇 실험을 통해 최첨단 성능을 능가하는 결과 도출 (최대 50% 성공률 향상).
사회적으로 인식하는 로봇 내비게이션 기술 발전에 기여.
한계점:
사전 훈련된 비전-액션 모델과 대형 VLM에 대한 의존도.
실험 환경의 일반화 가능성에 대한 추가 연구 필요.
다양한 로봇 플랫폼 및 환경에 대한 적용성 검증 필요.
어텐션 맵 기반 증류의 해석 가능성에 대한 추가적인 분석 필요.
👍