본 논문은 그룹 기반 강화학습(RL)의 장점을 유지하면서 장기간의 대규모 언어 모델(LLM) 에이전트 훈련의 확장성 문제를 해결하기 위해 새로운 알고리즘인 Group-in-Group Policy Optimization (GiGPO)를 제안합니다. GiGPO는 에피소드 단계와 단계 단계의 두 가지 수준에서 상대적 이점을 추정하는 계층적 구조를 도입하여 미세한 단계별 크레딧 할당을 달성합니다. 에피소드 단계에서는 완료된 궤적 그룹을 기반으로 거시적 상대적 이점을 계산하고, 단계 단계에서는 궤적 간 반복되는 환경 상태를 식별하여 단계별 그룹을 역으로 구성하는 앵커 상태 그룹화 메커니즘을 사용하여 미시적 상대적 이점을 추정합니다. ALFWorld와 WebShop이라는 두 가지 어려운 에이전트 벤치마크에서 Qwen2.5-1.5B-Instruct와 Qwen2.5-7B-Instruct를 사용하여 GiGPO를 평가한 결과, GRPO 기준보다 ALFWorld에서 12% 이상, WebShop에서 9% 이상의 성능 향상을 달성했습니다. 이는 추가적인 GPU 메모리 오버헤드나 LLM 롤아웃 없이, 또한 거의 추가적인 시간 비용 없이 달성된 결과입니다.