본 논문은 대학 캠퍼스, 식당, 식료품점, 병원과 같은 혼잡한 공공장소에서의 사회적 로봇 내비게이션을 위한 새로운 다중 에이전트 최대 엔트로피 역강화 학습 알고리즘을 제시한다. 기존의 역강화 학습(IRL)은 복잡한 사회적 상호작용으로 인해 다수 에이전트의 보상 함수를 동시에 학습하는 데 어려움을 겪었으나, 본 논문에서는 'tractability-rationality trade-off trick'이라는 효과적인 수학적 기법을 통해 이 문제를 해결했다. ETH, UCY, SCAND, JRDB 데이터셋과 새롭게 수집된 Speedway 데이터셋(밀집된 복잡한 상호작용에 중점)을 사용하여 기존의 단일 에이전트 MaxEnt IRL 및 최첨단 궤적 예측 방법과 비교 분석을 수행했다. 결과적으로, 밀집된 Speedway 데이터셋에서 최대 7개의 기준 모델 중 1위를 차지했으며, 단일 에이전트 IRL보다 2배 이상의 성능 향상을 보였다. ETH/UCY와 같은 상대적으로 희소한 데이터셋에서는 최첨단 대규모 트랜스포머 기반 인코더-디코더 모델과 경쟁력 있는 결과를 보였다(최대 7개의 기준 모델 중 3위).