Leveraging LLMs for reward function design in reinforcement learning control tasks
Created by
Haebom
Category
Empty
저자
Franklin Cardenoso, Wouter Caarls
LEARN-Opt: LLM 기반의 자율적인 보상 함수 최적화 프레임워크
개요
LEARN-Opt는 강화 학습(RL)에서 효과적인 보상 함수 설계를 자동화하기 위한 LLM 기반의 프레임워크입니다. 이 프레임워크는 시스템 및 작업 목표에 대한 텍스트 설명을 기반으로 보상 함수 후보를 생성, 실행 및 평가하며, 사전 평가 지표나 환경 소스 코드가 필요하지 않습니다. LEARN-Opt는 시스템 설명과 작업 목표로부터 직접 성능 지표를 자율적으로 도출하여 비지도 방식으로 보상 함수를 평가하고 선택합니다.
시사점, 한계점
•
사전 지표나 환경 소스 코드 없이 자율적인 보상 함수 설계를 가능하게 함으로써 엔지니어링 오버헤드를 줄이고 일반화 가능성을 향상시킵니다.
•
EUREKA와 같은 기존 방법론과 유사하거나 더 나은 성능을 달성합니다.
•
저비용 LLM을 사용하여 고성능 보상 함수 후보를 찾을 수 있는 잠재력을 보여줍니다.
•
자동화된 보상 설계는 높은 분산을 가지므로, 최상의 후보를 찾기 위해 다중 실행 접근 방식이 필요합니다.