본 논문은 로봇 시스템에서 강화학습의 성능이 사전에 정의된 보상 함수의 합리성에 의존하지만, 수동으로 설계된 보상 함수는 부정확성으로 인해 정책 실패를 초래할 수 있다는 문제를 다룹니다. 역강화학습(IRL)은 전문가 시범으로부터 암묵적인 보상 함수를 추론하여 이 문제를 해결하지만, 기존 방법들은 정확한 보상 함수를 복구하기 위해 많은 양의 전문가 시범에 크게 의존합니다. 특히 다중 로봇 시스템에서 전문가 시범을 수집하는 높은 비용은 IRL의 실제 배포를 심각하게 방해합니다. 따라서 다중 에이전트 역강화학습(MIRL)에서 샘플 효율성을 향상시키는 것이 중요한 과제로 등장했습니다. 본 논문은 다중 에이전트 시스템에 내재된 대칭성에 착안하여, 대칭성을 활용하면 보다 정확한 보상 함수를 복구할 수 있음을 이론적으로 증명합니다. 이러한 통찰력을 바탕으로 기존 다중 에이전트 적대적 IRL 알고리즘에 대칭성을 통합하는 범용 프레임워크를 제안하여 샘플 효율성을 크게 향상시킵니다. 여러 어려운 과제에 대한 실험 결과는 이 프레임워크의 효과를 보여주었으며, 실제 다중 로봇 시스템에서의 추가 검증은 본 방법의 실용성을 보여주었습니다.