Group 기반 강화 학습(RL)은 복잡한 추론 및 수학적 과제에서 인상적인 결과를 보여주었지만, 멀티 턴, 대화형 LLM 에이전트를 훈련하는 데 적용될 때 환경의 기본 연결성을 활용하지 못하는 구조적 맹점을 겪는 경우가 많습니다. 이는 비효율적인 탐색, 중요한 상태를 간과하여 정확하지 않은 크레딧 할당, 정적인 보상 할인을 통한 근시안적인 계획과 같은 세 가지 주요 문제로 나타납니다. Graph-Enhanced Policy Optimization (GEPO)를 통해 이러한 문제를 해결합니다. GEPO는 에이전트 경험으로부터 상태 전이 그래프를 동적으로 구축하고 그래프 이론적 중심성을 사용하여 세 가지 상승 효과 학습 신호를 제공합니다. (1) 영향력이 큰 상태로 탐색을 안내하는 구조화된 내재적 보상, (2) 토폴로지 인식 크레딧 할당을 위한 그래프 기반 어드밴티지 함수, (3) 각 상태의 전략적 가치에 맞게 조정된 동적 할인율. ALFWorld, WebShop 및 독점 Workbench 벤치마크에서 GEPO는 경쟁력 있는 기준선보다 각각 +4.1%, +5.3%, +10.9%의 절대 성공률 증가를 달성하며 강력한 성능을 보여줍니다. 이러한 결과는 환경 구조를 명시적으로 모델링하는 것이 LLM 에이전트 훈련을 발전시키는 강력하고 일반화 가능한 전략임을 강조합니다.