Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Agentic Reinforced Policy Optimization

Created by
  • Haebom

저자

Guanting Dong, Hangyu Mao, Kai Ma, Licheng Bao, Yifei Chen, Zhongyuan Wang, Zhongxia Chen, Jiazhen Du, Huiyang Wang, Fuzheng Zhang, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou

개요

본 논문은 대규모 언어 모델(LLM) 기반 에이전트를 다중 턴으로 학습시키기 위한 새로운 강화 학습 알고리즘인 Agentic Reinforced Policy Optimization (ARPO)를 제안합니다. 기존 강화 학습 알고리즘은 LLM의 장기적 추론 능력과 다중 턴 도구 상호작용 능력 간의 균형을 제대로 맞추지 못하는 한계를 가지는데, ARPO는 외부 도구 사용 후 불확실성이 높은 단계에서 탐색을 증진시키는 엔트로피 기반 적응적 전개 메커니즘을 도입하여 이 문제를 해결합니다. 또한, 단계별 도구 사용 상호작용에서 이점 차이를 내재화할 수 있도록 이점 귀속 추정을 통합합니다. 13개의 다양한 벤치마크 실험 결과, ARPO는 기존의 궤적 수준 강화 학습 알고리즘보다 우수한 성능을 보이며, 기존 방법보다 절반의 도구 사용 예산으로도 향상된 성능을 달성함을 보여줍니다.

시사점, 한계점

시사점:
LLM 기반 에이전트의 다중 턴 도구 상호작용 능력 향상을 위한 효과적인 강화 학습 알고리즘 ARPO 제시.
엔트로피 기반 적응적 전개 메커니즘을 통해 불확실성이 높은 단계에서 효율적인 탐색 가능.
이점 귀속 추정을 통한 단계별 도구 사용 상호작용에서의 이점 차이 내재화.
기존 방법 대비 적은 도구 사용 예산으로 향상된 성능 달성 및 확장성 확보.
한계점:
아직 preliminary experiments 결과만 제시되었으며, 더욱 광범위하고 엄격한 실험이 필요.
제시된 13개의 벤치마크의 일반화 가능성에 대한 추가적인 검증 필요.
ARPO 알고리즘의 복잡성 및 계산 비용에 대한 추가적인 분석 필요.
👍