본 논문은 서비스 로봇과 자율 주행 자동차가 인간 환경에서 점점 더 많이 사용됨에 따라, 단순한 목적지 도달을 넘어 사회적 인식을 통합하는 내비게이션 시스템의 필요성을 강조합니다. 이를 위해 대규모 다중 모달 모델(LMMs)을 활용한 새로운 그룹 기반 사회적 내비게이션 프레임워크인 GSON을 제시합니다. GSON은 시각적 프롬프팅을 통해 보행자 간의 사회적 관계를 제로샷으로 추출하고, 강력한 보행자 검출 및 추적 파이프라인과 통합하여 LMMs의 추론 속도 한계를 극복합니다. 계획 시스템은 전역 경로 계획과 지역 운동 계획 사이에 중간 수준의 계획자를 통합하여 전역적 맥락과 반응성을 모두 유지하면서 예측된 사회적 그룹의 방해를 피합니다. 대기, 대화, 사진 촬영 등 복잡한 사회적 시나리오를 포함하는 광범위한 실제 모바일 로봇 내비게이션 실험을 통해 GSON을 검증하였으며, 기존 내비게이션 방식보다 사회적 방해를 최소화하면서 기존 내비게이션 지표에 대한 성능은 유지함을 보여줍니다.