Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Leveraging LLMs for reward function design in reinforcement learning control tasks

Created by
  • Haebom
Category
Empty

저자

Franklin Cardenoso, Wouter Caarls

LEARN-Opt: LLM 기반의 자율적인 보상 함수 최적화 프레임워크

개요

LEARN-Opt는 강화 학습(RL)에서 효과적인 보상 함수 설계를 자동화하기 위한 LLM 기반의 프레임워크입니다. 이 프레임워크는 시스템 및 작업 목표에 대한 텍스트 설명을 기반으로 보상 함수 후보를 생성, 실행 및 평가하며, 사전 평가 지표나 환경 소스 코드가 필요하지 않습니다. LEARN-Opt는 시스템 설명과 작업 목표로부터 직접 성능 지표를 자율적으로 도출하여 비지도 방식으로 보상 함수를 평가하고 선택합니다.

시사점, 한계점

사전 지표나 환경 소스 코드 없이 자율적인 보상 함수 설계를 가능하게 함으로써 엔지니어링 오버헤드를 줄이고 일반화 가능성을 향상시킵니다.
EUREKA와 같은 기존 방법론과 유사하거나 더 나은 성능을 달성합니다.
저비용 LLM을 사용하여 고성능 보상 함수 후보를 찾을 수 있는 잠재력을 보여줍니다.
자동화된 보상 설계는 높은 분산을 가지므로, 최상의 후보를 찾기 위해 다중 실행 접근 방식이 필요합니다.
👍