Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning

Author

Haebom

저자

Xin Cheng, Shuo He, Lang Feng, HaiYang Xu, Ming Yan, Lei Feng, Bo An

💡 개요

기존 그룹 기반 강화학습(RL) 방법론은 최종 결과에 기반한 거친 궤적 수준의 기여도 할당에 의존하여 개별 스텝의 기여도를 정확히 파악하기 어렵다는 문제를 안고 있습니다. 본 연구에서는 이러한 한계를 극복하기 위해 모든 롤아웃 궤적을 통합된 상태-전이 그래프로 집계하고, 그래프에 인코딩된 전역 정보를 활용하여 각 상태에서 목표까지의 거리를 추정하는 GraphGPO를 제안합니다. GraphGPO는 그래프 기반의 장점(advantage)을 추정하여 각 전환(edge)에 기여도를 할당함으로써 훈련 효율성을 높이고 다양한 벤치마크에서 최첨단 성능을 달성합니다.

🔑 시사점 및 한계

•

궤적 수준의 단순한 기여도 할당에서 벗어나, 상태-전이 그래프를 통해 개별 스텝의 가치를 더욱 정교하게 평가할 수 있습니다.

•

실패한 궤적 속에서도 유의미한 스텝의 기여도를 발굴하여 학습 효율성을 크게 향상시킬 수 있습니다.

•

상태-전이 그래프 구축 및 정보 활용에 대한 계산 복잡성 증가 가능성.

PDF 보기

Made with Slashpage