Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Guiding Exploration in Reinforcement Learning Through LLM-Augmented Observations

Created by
  • Haebom

저자

Vaibhav Jain, Gerrit Grossmann

Reinforcement Learning with LLM-Generated Action Recommendations

개요

강화 학습(RL) 에이전트는 희소 보상 환경에서 어려움을 겪는데, 이는 기존 탐색 전략이 효과적인 행동 시퀀스를 발견하는 데 실패하기 때문이다. 대규모 언어 모델(LLM)은 텍스트 사전 훈련을 통해 절차적 지식과 추론 능력을 갖추고 있어 RL 탐색을 안내할 수 있지만, 기존 접근 방식은 RL 정책이 LLM 제안을 따라야 하거나 이를 보상 함수에 직접 통합해야 하는 경직된 종속성을 생성한다. 본 논문에서는 LLM이 생성한 행동 권장 사항을 증강된 관찰 공간을 통해 제공하는 프레임워크를 제안한다. 이를 통해 RL 에이전트는 이 지침을 따를지 무시할지 학습할 수 있다. 본 방법은 LLM의 세계 지식과 추론 능력을 활용하면서 소프트 제약을 통해 유연성을 유지한다. 우리는 세 가지 BabyAI 환경에서 접근 방식을 평가하고 작업 난이도가 높아질수록 LLM 지침의 이점이 증가함을 보여준다. 가장 어려운 환경에서 기준선 대비 최종 성공률에서 71%의 상대적 향상을 달성했다. 이 접근 방식은 상당한 샘플 효율성 향상을 제공하여, 에이전트가 최대 9배 더 빠르게 성능 임계값에 도달하며, 기존 RL 알고리즘에 대한 수정이 필요하지 않다. 우리의 결과는 LLM 계획 능력을 활용하여 어려운 환경에서 RL 훈련을 가속화하는 효과적인 방법을 보여준다.

시사점, 한계점

LLM-생성 행동 권장 사항을 RL 에이전트의 관찰 공간에 통합하여, 에이전트가 LLM 지침을 따를지 무시할지 학습할 수 있게 함.
LLM의 세계 지식과 추론 능력을 활용하여 희소 보상 환경에서 RL 훈련의 성능을 향상시킴.
기존 RL 알고리즘에 대한 수정 없이 사용 가능.
BabyAI 환경에서 상당한 성능 향상과 샘플 효율성 증가를 달성함.
LLM의 효과적인 활용을 보여주지만, LLM의 지식과 추론 능력에 전적으로 의존하므로, LLM의 한계가 성능에 영향을 미칠 수 있음.
LLM의 생성 품질에 따라 성능 편차가 발생할 수 있음.
본 연구의 환경에 대한 일반화 가능성을 추가적인 실험을 통해 검증해야 함.
👍