Este artículo propone la Optimización de Políticas de Grupo dentro de Grupo (GiGPO), un novedoso algoritmo que aborda los desafíos de escalabilidad del entrenamiento de agentes de modelos de lenguaje (LLM) a largo plazo y a gran escala mediante aprendizaje por refuerzo (RL) basado en grupos. Si bien mantiene las ventajas del RL basado en grupos existente (sin evaluador, bajo consumo de memoria y convergencia estable), logra una asignación de créditos precisa a nivel de etapa mediante una estructura jerárquica que calcula las ventajas relativas tanto a nivel de episodio como de etapa. A nivel de episodio, la ventaja relativa macroscópica se calcula a partir de grupos de trayectorias completadas, mientras que a nivel de etapa, la ventaja relativa microscópica se estima mediante la introducción de un mecanismo de agrupación de estados de anclaje que identifica estados ambientales recurrentes y construye inversamente grupos a nivel de etapa. Las evaluaciones en los benchmarks ALFWorld y WebShop utilizando Qwen2.5-1.5B-Instruct y Qwen2.5-7B-Instruct demuestran mejoras de rendimiento superiores al 12 % en ALFWorld y al 9 % en WebShop, en comparación con las líneas base de GRPO existentes. Este enfoque mantiene la misma sobrecarga de memoria de GPU y la misma implementación de LLM, con poca o ninguna sobrecarga de tiempo adicional.