Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models

Created by
  • Haebom

저자

Qianyue Hao, Yiwen Song, Qingmin Liao, Jian Yuan, Yong Li

개요

본 논문은 강화 학습(RL)에서 기존의 정책 탐색 방법들이 과제 특징을 고려하지 않고 미리 설정된 확률 과정을 사용하는 한계를 지적하며, 대규모 언어 모델(LLM)을 활용하여 과제 특유의 적응적인 탐색 전략을 생성하는 LLM-Explorer를 제안합니다. LLM-Explorer는 RL 훈련 중 에이전트의 학습 경로를 분석하여 LLM으로 하여금 현재 정책 학습 상태를 분석하고 미래 정책 탐색을 위한 확률 분포를 생성하게 합니다. 이 확률 분포는 주기적으로 업데이트되어 특정 과제에 특화되고 학습 과정에 동적으로 적응하는 확률 과정을 도출합니다. LLM-Explorer는 DQN, DDPG, TD3 등 다양한 RL 알고리즘과 호환되며, Atari와 MuJoCo 벤치마크에서 평균 37.27%의 성능 향상을 달성했습니다.

시사점, 한계점

시사점:
LLM을 활용하여 RL 정책 탐색을 향상시키는 새로운 방법 제시
과제 특징을 고려한 적응적인 탐색 전략 생성 가능
다양한 RL 알고리즘과의 호환성
실험 결과를 통해 성능 향상을 검증
한계점:
LLM의 활용으로 인한 계산 비용 증가 가능성
LLM의 출력에 대한 신뢰도 및 안정성 문제
특정 LLM에 대한 의존성
다양한 과제에 대한 일반화 성능 검증 필요
👍