Cet article propose l'optimisation des politiques de groupe (GiGPO), un nouvel algorithme qui répond aux défis d'évolutivité de l'apprentissage à long terme et à grande échelle des agents de modèles de langage (LLM) grâce à l'apprentissage par renforcement (RL) basé sur les groupes. Tout en conservant les avantages de l'apprentissage par renforcement basé sur les groupes existant (sans évaluateur, faible empreinte mémoire et convergence stable), il permet une attribution fine des crédits par étape grâce à une structure hiérarchique qui calcule les avantages relatifs aux niveaux épisode et étape. Au niveau épisode, l'avantage relatif macroscopique est calculé à partir de groupes de trajectoires achevées, tandis qu'au niveau étape, l'avantage relatif microscopique est estimé en introduisant un mécanisme de regroupement par état d'ancrage qui identifie les états environnementaux récurrents et construit inversement des groupes par étape. Les évaluations sur les benchmarks ALFWorld et WebShop utilisant Qwen2.5-1.5B-Instruct et Qwen2.5-7B-Instruct démontrent des gains de performance de plus de 12 % sur ALFWorld et de plus de 9 % sur WebShop par rapport aux références GRPO existantes. Cette approche maintient la même surcharge de mémoire GPU et le même déploiement LLM, avec peu ou pas de surcharge de temps supplémentaire.