SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees

Created by

Haebom

저자

Tianyi Hu, Qingxu Fu, Yanxi Chen, Zhaoyang Liu, Bolin Ding

💡 개요

기존 강화학습(RL) 기반 대규모 언어 모델(LLM) 에이전트 학습 방식은 다중 턴(multi-turn) 환경에서 학습 안정성과 최적 정책 수렴 보장이 부족한 문제를 안고 있었습니다. 본 논문은 이러한 문제점을 해결하기 위해 시퀀스 수준에서 순차적 정책 업데이트를 수행하는 새로운 강화학습 방법론인 SeeUPO를 제안합니다. SeeUPO는 다중 턴 상호작용을 순차적으로 실행되는 다중 에이전트 밴딧 문제로 모델링하고, 역순으로 정책을 업데이트하여 전역 최적해로의 수렴을 보장하며, 실험 결과 기존 알고리즘 대비 상당한 성능 향상과 안정성을 입증했습니다.

🔑 시사점 및 한계

•

다중 턴 LLM 에이전트 학습에서 발생하는 학습 불안정성과 수렴 보장 문제를 해결하기 위한 새로운 프레임워크를 제시합니다.

•

제안된 SeeUPO는 비판자(critic) 없이도 전역 최적해로의 수렴을 보장하며, 실제 벤치마크에서 기존 SOTA(State-Of-The-Art) 알고리즘 대비 우수한 성능을 보여줍니다.

•

역순 정책 업데이트 방식을 채택하여 다중 턴 상호작용의 특성을 효과적으로 반영하였으나, 복잡하고 장기적인 의존성을 가진 시나리오에서의 적용 가능성 및 확장성에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage