Agent-GSPO는 "free-for-all" 멀티 에이전트 시스템의 과도한 통신 비용 문제를 해결하기 위해, 시퀀스 레벨 강화 학습을 사용하여 토큰 경제를 직접 최적화하는 프레임워크입니다. 안정적이고 메모리 효율적인 GSPO(Group Sequence Policy Optimization) 알고리즘을 활용하여, 에이전트가 통신량을 명시적으로 페널티 받는 통신 인식 보상을 받도록 훈련합니다. 7개의 추론 벤치마크에서 Agent-GSPO는 기존 방법보다 적은 토큰 소비량으로 새로운 최고 성능을 달성했습니다. '전략적 침묵'과 같은 전략을 통해 확장 가능하고 경제적인 멀티 에이전트 시스템 개발을 위한 실질적인 청사진을 제시합니다.