Sign In

Unifying Large Language Model and Deep Reinforcement Learning for Human-in-Loop Interactive Socially-aware Navigation

Created by
  • Haebom
Category
Empty

저자

Weizheng Wang, Ike Obi, Aniket Bera, Byung-Cheol Min

개요

본 논문은 복잡하고 혼잡한 환경에서 협력적 운반과 같은 고급 서비스를 제공하기 위해 실시간 사용자 언어 명령이나 피드백에 따라 행동을 적응시키는 상호작용적 사회적 로봇을 위한 인간이 가득 찬 공간을 탐색하는 방법을 제시한다. 기존의 사회적 로봇 내비게이션 플래너들이 실시간 사용자 입력 관리 및 낯선 제로샷 환경에서의 사회적으로 준수하는 행동 보장이라는 두 가지 주요 과제에 직면하는 점을 지적하며, 이에 대한 해결책으로 심층 강화 학습(DRL)과 대규모 언어 모델(LLM) 기능을 동적으로 통합하는 상호 작용적 인간-루프 사회적 인식 내비게이션 대규모 언어 모델 프레임워크인 SALM을 소개한다. SALM은 실시간 인간-로봇 상호 작용으로부터 문맥적 의미 이해를 활용하여 고수준 사용자 명령을 정확한 저수준 제어 동작으로 변환한다. 고수준 LLM 모듈은 사용자 입력을 파싱하여 대규모 언어 내비게이션 모델(LNM)과 DRL 기반 내비게이션 모델(RLNM) 모두에 의한 내비게이션 명령의 동시 생성을 안내한다. 메모리 메커니즘은 지속적인 개선을 위해 시간적 데이터를 보관하고, 다단계 사고 그래프 추론 기반의 대규모 언어 피드백 모델은 두 가지 계획 접근 방식의 강점을 적응적으로 융합한다. 실험 평가는 SALM이 혼잡하고 역동적인 환경에서 탐색 정확도를 향상시킬 뿐만 아니라 시스템 적응성을 크게 향상시켜 개별 사용자 선호도 및 실시간 피드백과 일치하는 맞춤형 동작을 제공함을 보여준다.

시사점, 한계점

시사점:
혼잡하고 역동적인 환경에서 사회적 로봇의 탐색 정확도 향상
개별 사용자 선호도 및 실시간 피드백에 맞는 맞춤형 동작 제공
심층 강화 학습(DRL)과 대규모 언어 모델(LLM)의 효과적인 통합
실시간 사용자 입력 관리 및 사회적으로 준수하는 행동 보장
한계점:
제로샷 환경에서의 일반화 성능에 대한 추가적인 검증 필요
다양한 유형의 사용자 상호작용 및 환경에 대한 로버스트니스 평가 필요
LLM 및 DRL 모델의 계산 비용 및 복잡성에 대한 고려 필요
장기간의 안정적인 운영 및 신뢰성에 대한 검증 필요
👍