Cet article présente un cadre d'apprentissage par renforcement multi-agents hiérarchique (MARL) permettant de réaliser un travail d'équipe coopératif entre robots à pattes. En utilisant le football robotisé comme environnement de test, nous mettons en œuvre des interactions multi-agents dynamiques et compétitives. À un niveau bas, nous apprenons diverses compétences motrices, telles que la marche, le dribble et le coup de pied. À un niveau élevé, nous apprenons des politiques de planification stratégique grâce à l'optimisation multi-agents proximale (MAPPO) avec auto-jeu fictif (FSP). Cela permet aux agents de s'adapter à diverses stratégies adverses et de démontrer des comportements d'équipe sophistiqués, tels que les passes coopératives, l'interception et le partage des rôles. Nous appliquons ce cadre à de vrais robots quadrupèdes pour réaliser des matchs de football autonomes entre robots et entre robots et humains, en intérieur comme en extérieur, en utilisant uniquement leur propre perception de la position.