Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multi-Agent Inverse Reinforcement Learning in Real World Unstructured Pedestrian Crowds

Created by
  • Haebom
Category
Empty

저자

Rohan Chandra, Haresh Karnan, Negar Mehr, Peter Stone, Joydeep Biswas

개요

본 논문은 대학 캠퍼스, 식당, 식료품점, 병원과 같은 혼잡한 공공장소에서의 사회적 로봇 내비게이션을 위한 새로운 다중 에이전트 최대 엔트로피 역강화 학습 알고리즘을 제시한다. 기존의 역강화 학습(IRL)은 복잡한 사회적 상호작용으로 인해 다수 에이전트의 보상 함수를 동시에 학습하는 데 어려움을 겪었으나, 본 논문에서는 'tractability-rationality trade-off trick'이라는 효과적인 수학적 기법을 통해 이 문제를 해결했다. ETH, UCY, SCAND, JRDB 데이터셋과 새롭게 수집된 Speedway 데이터셋(밀집된 복잡한 상호작용에 중점)을 사용하여 기존의 단일 에이전트 MaxEnt IRL 및 최첨단 궤적 예측 방법과 비교 분석을 수행했다. 결과적으로, 밀집된 Speedway 데이터셋에서 최대 7개의 기준 모델 중 1위를 차지했으며, 단일 에이전트 IRL보다 2배 이상의 성능 향상을 보였다. ETH/UCY와 같은 상대적으로 희소한 데이터셋에서는 최첨단 대규모 트랜스포머 기반 인코더-디코더 모델과 경쟁력 있는 결과를 보였다(최대 7개의 기준 모델 중 3위).

시사점, 한계점

시사점:
밀집된 비구조화된 보행자 군집에서의 다중 에이전트 보상 함수 학습 문제에 대한 효과적인 해결책 제시.
'tractability-rationality trade-off trick'이라는 새로운 수학적 기법을 통해 계산 가능성과 정확성 사이의 균형을 효과적으로 달성.
다양한 데이터셋에서 기존 방법들에 비해 우수한 성능을 입증.
사회적 로봇 내비게이션 분야의 발전에 기여.
한계점:
'tractability-rationality trade-off trick'으로 인한 정확도 저하 가능성.
Speedway 데이터셋 외 다른 데이터셋에서는 최고 성능을 달성하지 못함. (ETH/UCY에서 3위)
알고리즘의 일반화 성능에 대한 추가적인 연구 필요.
실제 환경 적용 시 예상치 못한 상황에 대한 robustness에 대한 추가 검증 필요.
👍