Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GSON: A Group-based Social Navigation Framework with Large Multimodal Model

Created by
  • Haebom

저자

Shangyi Luo, Ji Zhu, Peng Sun, Yuhong Deng, Cunjun Yu, Anxing Xiao, Xueqian Wang

개요

본 논문은 서비스 로봇과 자율 주행 자동차가 인간 환경에서 점점 더 많이 사용됨에 따라, 단순한 목적지 도달을 넘어 사회적 인식을 통합하는 내비게이션 시스템의 필요성을 강조합니다. 이를 위해 대규모 다중 모달 모델(LMMs)을 활용한 새로운 그룹 기반 사회적 내비게이션 프레임워크인 GSON을 제시합니다. GSON은 시각적 프롬프팅을 통해 보행자 간의 사회적 관계를 제로샷으로 추출하고, 강력한 보행자 검출 및 추적 파이프라인과 통합하여 LMMs의 추론 속도 한계를 극복합니다. 계획 시스템은 전역 경로 계획과 지역 운동 계획 사이에 중간 수준의 계획자를 통합하여 전역적 맥락과 반응성을 모두 유지하면서 예측된 사회적 그룹의 방해를 피합니다. 대기, 대화, 사진 촬영 등 복잡한 사회적 시나리오를 포함하는 광범위한 실제 모바일 로봇 내비게이션 실험을 통해 GSON을 검증하였으며, 기존 내비게이션 방식보다 사회적 방해를 최소화하면서 기존 내비게이션 지표에 대한 성능은 유지함을 보여줍니다.

시사점, 한계점

시사점:
대규모 다중 모달 모델(LMMs)을 활용하여 로봇의 사회적 인식 능력을 향상시키는 새로운 접근법 제시.
시각적 프롬프팅을 통한 제로샷 사회적 관계 추출로 효율성 증대.
중간 수준 계획자를 통합하여 전역적 맥락과 반응성을 모두 고려한 사회적 내비게이션 구현.
실제 환경에서의 실험을 통해 GSON의 우수성 검증.
사회적 방해 최소화와 기존 내비게이션 성능 유지의 균형 달성.
한계점:
LMMs의 추론 속도 한계를 완전히 극복하지 못할 수 있음. (추론 속도 개선 여지 존재)
다양한 사회적 상황에 대한 일반화 성능에 대한 추가 연구 필요.
실험 환경의 제한으로 인한 일반화 가능성에 대한 검토 필요.
예측된 사회적 그룹의 정확도에 따라 성능이 영향을 받을 수 있음.
👍