Sign In

Graph-Enhanced Policy Optimization in LLM Agent Training

Created by
  • Haebom
Category
Empty

저자

Jiazhen Yuan, Wei Zhao, Zhengbiao Bai

개요

Group 기반 강화 학습(RL)은 복잡한 추론 및 수학적 과제에서 인상적인 결과를 보여주었지만, 멀티 턴, 대화형 LLM 에이전트를 훈련하는 데 적용될 때 환경의 기본 연결성을 활용하지 못하는 구조적 맹점을 겪는 경우가 많습니다. 이는 비효율적인 탐색, 중요한 상태를 간과하여 정확하지 않은 크레딧 할당, 정적인 보상 할인을 통한 근시안적인 계획과 같은 세 가지 주요 문제로 나타납니다. Graph-Enhanced Policy Optimization (GEPO)를 통해 이러한 문제를 해결합니다. GEPO는 에이전트 경험으로부터 상태 전이 그래프를 동적으로 구축하고 그래프 이론적 중심성을 사용하여 세 가지 상승 효과 학습 신호를 제공합니다. (1) 영향력이 큰 상태로 탐색을 안내하는 구조화된 내재적 보상, (2) 토폴로지 인식 크레딧 할당을 위한 그래프 기반 어드밴티지 함수, (3) 각 상태의 전략적 가치에 맞게 조정된 동적 할인율. ALFWorld, WebShop 및 독점 Workbench 벤치마크에서 GEPO는 경쟁력 있는 기준선보다 각각 +4.1%, +5.3%, +10.9%의 절대 성공률 증가를 달성하며 강력한 성능을 보여줍니다. 이러한 결과는 환경 구조를 명시적으로 모델링하는 것이 LLM 에이전트 훈련을 발전시키는 강력하고 일반화 가능한 전략임을 강조합니다.

시사점, 한계점

시사점:
GEPO는 환경 구조를 명시적으로 모델링하여 LLM 에이전트 훈련의 성능을 향상시킴
구조화된 내재적 보상, 그래프 기반 어드밴티지 함수, 동적 할인율을 활용하여 탐색, 크레딧 할당, 계획 문제를 해결
ALFWorld, WebShop, Workbench 벤치마크에서 경쟁력 있는 기준선 대비 상당한 성능 향상을 달성
한계점:
논문에서 한계점에 대한 직접적인 언급은 없음.
👍