The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

작성자

Haebom

카테고리

Empty

저자

Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Francisco Piedrahita-Velez, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai

💡 개요

본 논문은 대규모 언어 모델(LLM)의 강화학습 분야에서 기존의 수동적인 시퀀스 생성에서 벗어나 자율적인 의사결정 에이전트로의 패러다임 전환을 다룬다. 기존 LLM 강화학습의 단일 스텝 MDP에서 벗어나, 시간이 연장되고 부분적으로 관측 가능한 POMDP를 정의하는 에이전트 강화학습을 개념화한다. 계획, 도구 사용, 메모리, 추론, 자기 개선, 인식을 포함하는 핵심 에이전트 기능과 다양한 응용 분야를 중심으로 체계적인 분류를 제시하며, 강화학습이 이러한 기능들을 정적 모듈에서 적응적이고 강력한 에이전트 행동으로 변환하는 핵심 메커니즘임을 주장한다.

🔑 시사점 및 한계

•

에이전트 강화학습은 LLM을 단순한 텍스트 생성기를 넘어 복잡한 환경에서 자율적으로 행동하는 에이전트로 발전시키는 데 중요한 역할을 한다.

•

LLM 기반 에이전트의 다양한 기능(계획, 도구 사용, 메모리 등)과 응용 분야를 체계적으로 분류하여 연구 방향 설정에 기여한다.

•

방대한 최신 연구 결과들을 종합하고 오픈소스 환경, 벤치마크, 프레임워크를 정리하여 향후 연구를 위한 실질적인 정보를 제공한다.

•

이 분야는 빠르게 발전하고 있으며, 확장 가능하고 범용적인 AI 에이전트 개발을 위한 기회와 도전 과제가 남아있다.

PDF 보기

Made with Slashpage