Este artículo aborda el problema de que el rendimiento del aprendizaje por refuerzo en sistemas robóticos depende de la racionalidad de funciones de recompensa predefinidas, pero las funciones de recompensa diseñadas manualmente pueden provocar fallos en las políticas debido a imprecisiones. El aprendizaje por refuerzo inverso (IRL) aborda este problema infiriendo funciones de recompensa implícitas a partir de demostraciones de expertos, pero los métodos existentes dependen en gran medida de un gran número de demostraciones de expertos para obtener funciones de recompensa precisas. El alto coste de recopilar demostraciones de expertos, especialmente en sistemas multirrobot, dificulta gravemente la implementación práctica del IRL. Por lo tanto, mejorar la eficiencia del muestreo se ha convertido en un reto crítico en el aprendizaje por refuerzo inverso multiagente (MIRL). Este artículo demuestra teóricamente que aprovechar la simetría inherente en sistemas multiagente puede permitir obtener funciones de recompensa más precisas. Con base en esta perspectiva, proponemos un marco general que incorpora la simetría en los algoritmos IRL antagónicos multiagente existentes, mejorando significativamente la eficiencia del muestreo. Los resultados experimentales en diversas tareas complejas demuestran la eficacia de este marco, y una validación posterior en sistemas multirrobot reales demuestra la viabilidad de nuestro método.