대규모 언어 모델(LLM)은 상식 추론 및 코드 생성 능력이 뛰어나 자동 강화 학습(RL) 보상 설계에 유망한 도구로 떠오르고 있습니다. LLM은 RL 에이전트와 대화를 통해 관련 환경 상태를 선택하고 내부 연산을 정의하여 보상 관찰 공간(ROS)을 구성합니다. 하지만 기존 프레임워크는 이 공간을 반복적으로 발전시키기 위해 과거 탐색 데이터나 수동 작업 설명을 효과적으로 활용하지 못했습니다. 본 논문에서는 테이블 기반 탐색 캐싱 메커니즘과 텍스트-코드 조정 전략을 통해 ROS를 발전시킴으로써 LLM 기반 보상 설계를 향상시키는 새로운 휴리스틱 프레임워크를 제안합니다. 제안된 프레임워크는 환경 상태의 과거 사용 및 성공률을 추적하는 상태 실행 테이블을 도입하여 LLM 대화에서 일반적으로 발견되는 마르코프 제약을 극복하고 보다 효과적인 탐색을 가능하게 합니다. 또한, 구조화된 프롬프트를 사용하여 사용자가 제공한 작업 설명과 전문가가 정의한 성공 기준을 조정하여 보상 설계 목표의 일관성을 보장합니다. 벤치마크 RL 작업에 대한 포괄적인 평가는 제안된 프레임워크의 효과와 안정성을 보여줍니다. 코드와 비디오 데모는 jingjjjjjie.github.io/LLM2Reward에서 확인할 수 있습니다.
시사점, 한계점
•
시사점:
◦
과거 탐색 데이터와 수동 작업 설명을 활용하여 LLM 기반 보상 설계를 향상시키는 새로운 휴리스틱 프레임워크 제시.
◦
상태 실행 테이블을 통해 LLM 대화의 마르코프 제약 극복 및 효과적인 탐색 가능.
◦
구조화된 프롬프트를 이용한 사용자 작업 설명과 전문가 성공 기준의 조정으로 보상 설계 목표의 일관성 확보.