Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

Created by
  • Haebom
Category
Empty

저자

Ziyi Chen, Yingnan Guo, Zedong Chu, Minghua Luo, Yanfen Shen, Mingchao Sun, Junjun Hu, Shichao Xie, Kuan Yang, Pei Shi, Zhining Gu, Lu Liu, Honglin Han, Xiaolong Wu, Mu Xu, Yu Zhang

개요

SocialNav은 사회적 규범을 준수하는 임베디드 내비게이션을 위한 기반 모델입니다. 계층적 "뇌-행동" 아키텍처를 사용하여 높은 수준의 사회적 규범을 이해하고, 사회적으로 적합한 낮은 수준의 궤적을 생성합니다. SocNav Dataset(700만 개의 샘플)을 활용하며, 인지 활성화 데이터세트(chain-of-thought 설명 및 사회적 이동성 예측)와 전문가 궤적 피라미드(인터넷 비디오, 시뮬레이션 환경, 실제 로봇의 다양한 내비게이션 데모)를 포함합니다. 모방 학습을 통해 일반적인 내비게이션 기술과 사회적 규범 이해를 주입하고, SAFE-GRPO(사회적 준수 행동에 명시적으로 보상하는 흐름 기반 강화 학습 프레임워크)를 통해 기술을 개선하는 다단계 학습 파이프라인을 제안합니다. SocialNav은 최첨단 방법론에 비해 성공률 +38%, 사회적 준수율 +46%를 달성했습니다.

시사점, 한계점

시사점:
사회적 규범을 준수하는 임베디드 내비게이션 문제 해결에 기여
대규모 데이터셋 구축 및 활용 (SocNav Dataset)
다단계 학습 파이프라인 제안 (모방 학습 및 강화 학습)
새로운 강화 학습 프레임워크 SAFE-GRPO 개발
기존 방법론 대비 높은 성능 (성공률, 사회적 준수율 향상)
한계점:
논문 내용만으로는 구체적인 한계점을 파악하기 어려움 (추가적인 논문 분석 필요)
모델의 일반화 능력 및 실제 환경에서의 적용 가능성에 대한 추가적인 평가 필요
SAFE-GRPO의 복잡성 및 계산 비용에 대한 고려 필요
👍