Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

Created by
  • Haebom
Category
Empty

저자

Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Francisco Piedrahita-Velez, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai

개요

Agentic 강화 학습(Agentic RL)의 출현은 기존의 대규모 언어 모델(LLM RL)에 적용된 강화 학습에서 패러다임 전환을 의미하며, LLM을 수동적인 시퀀스 생성기에서 복잡하고 역동적인 세계에 내장된 자율적 의사 결정 에이전트로 재구성합니다. 이 설문조사는 LLM-RL의 퇴화된 단일 단계 마르코프 의사 결정 프로세스(MDP)와 Agentic RL을 정의하는 시간적으로 확장된 부분 관측 마르코프 의사 결정 프로세스(POMDP)를 대조하여 이러한 개념적 변화를 공식화합니다. 이를 바탕으로 계획, 도구 사용, 기억, 추론, 자기 개선 및 지각을 포함한 핵심 에이전트 능력과 다양한 작업 영역에서의 응용 프로그램을 중심으로 구성된 포괄적인 이중 분류법을 제안합니다. 강화 학습은 이러한 능력을 정적이고 휴리스틱한 모듈에서 적응적이고 강력한 에이전트 행동으로 변환하는 데 중요한 메커니즘 역할을 합니다. 향후 연구를 지원하고 가속화하기 위해, 오픈 소스 환경, 벤치마크 및 프레임워크의 환경을 실용적인 요약으로 통합합니다. 500개 이상의 최근 연구를 종합하여 이 설문조사는 빠르게 진화하는 분야의 윤곽을 그리고 확장 가능하고 범용 AI 에이전트 개발을 형성할 기회와 과제를 강조합니다.

시사점, 한계점

시사점:
Agentic RL은 LLM을 자율적 에이전트로 변환하는 새로운 패러다임을 제시합니다.
Agentic RL을 위한 핵심 에이전트 능력 및 응용 분야에 대한 분류법을 제공합니다.
강화 학습이 에이전트 행동의 적응성을 개선하는 데 중요함을 강조합니다.
오픈 소스 환경, 벤치마크, 프레임워크에 대한 실용적인 요약을 제공하여 연구를 지원합니다.
향후 AI 에이전트 개발에 중요한 기회와 과제를 제시합니다.
한계점:
구체적인 연구 결과나 방법론의 기술적 세부 사항은 포함되지 않았습니다 (전반적인 조망에 초점).
500개 이상의 최근 연구를 종합했지만, 모든 관련 연구를 다루지는 못했을 수 있습니다.
제시된 분류법이 모든 Agentic RL 연구를 포괄하는 것은 아닐 수 있습니다.
구체적인 구현 및 성능에 대한 평가는 부족합니다.
👍