Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GSON: A Group-based Social Navigation Framework with Large Multimodal Model

Created by
  • Haebom

저자

Shangyi Luo, Peng Sun, Ji Zhu, Yuhong Deng, Cunjun Yu, Anxing Xiao, Xueqian Wang

개요

본 논문은 서비스 로봇과 자율주행 자동차가 인간 환경에서 증가함에 따라, 단순 목적지 도달을 넘어 사회적 인식을 통합하는 내비게이션 시스템의 필요성을 강조한다. 이를 위해, 대규모 다중 모달 모델(LMMs)을 활용하여 로봇의 사회적 인식 능력을 향상시키는 새로운 그룹 기반 사회적 내비게이션 프레임워크인 GSON을 제시한다. GSON은 시각적 프롬프팅을 통해 보행자 간의 사회적 관계를 제로샷으로 추출하고, 강력한 보행자 탐지 및 추적 파이프라인과 통합하여 LMMs의 고유한 추론 속도 제한을 극복한다. 또한, 전역 경로 계획과 지역 운동 계획 사이에 중간 수준의 계획기를 통합하여 전역적 맥락과 반응성을 모두 유지하면서 예측된 사회적 그룹의 방해를 피한다. 실제 세계 모바일 로봇 내비게이션 실험을 통해 대기열, 대화, 사진 촬영과 같은 복잡한 사회적 시나리오에서 GSON을 검증하고, 기존 내비게이션 접근 방식보다 사회적 교란을 최소화하면서 기존 내비게이션 지표에 대한 성능은 유지함을 보여준다.

시사점, 한계점

시사점:
LMMs를 활용하여 로봇의 사회적 인식 능력을 향상시키는 새로운 방법 제시.
시각적 프롬프팅을 통해 제로샷 사회적 관계 추출 가능성을 보여줌.
중간 수준 계획기를 통해 전역적 맥락과 반응성을 효과적으로 결합.
실제 세계 실험을 통해 GSON의 효과성을 검증하고 기존 방법 대비 성능 향상을 입증.
한계점:
LMMs의 추론 속도 제한을 완전히 극복하지는 못함. (추가적인 속도 개선 연구 필요)
다양한 사회적 상황에 대한 일반화 능력에 대한 추가적인 검증 필요.
실험 환경의 제한으로 인한 일반화 가능성에 대한 추가적인 검토 필요.
👍