PROF: An LLM-based Reward Code Preference Optimization Framework for Offline Imitation Learning
Created by
Haebom
Category
Empty
저자
Shengjie Sun, Jiafei Lyu, Runze Liu, Mengbei Yan, Bo Liu, Deheng Ye, Xiu Li
PROF: LLM 기반 오프라인 모방 학습 프레임워크
개요
본 논문은 오프라인 모방 학습(offline IL)을 위한 새로운 프레임워크인 PROF를 제안합니다. PROF는 대규모 언어 모델(LLM)을 활용하여 자연어 설명과 단일 전문가 궤적을 기반으로 실행 가능한 보상 함수 코드를 생성하고 개선합니다. PROF는 환경 상호 작용이나 강화 학습 없이 보상 함수의 품질을 평가하고 순위를 매기는 새로운 전략인 Reward Preference Ranking (RPR)을 제안합니다. RPR을 통해 PROF는 최적의 보상 함수를 선택하고 개선하여 다운스트림 정책 학습을 완전히 자동화합니다. D4RL 데이터셋에 대한 실험 결과는 PROF가 기존의 강력한 기준선을 능가하거나 일치함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
LLM을 활용하여 오프라인 IL의 보상 함수 설계를 자동화했습니다.
◦
RPR을 통해 환경 상호 작용 없이 보상 함수의 품질을 평가하는 방법을 제시했습니다.
◦
D4RL 벤치마크에서 기존 SOTA(state-of-the-art) 모델과 유사하거나 더 나은 성능을 달성했습니다.
•
한계점:
◦
단일 전문가 궤적에 의존합니다.
◦
LLM의 성능에 의존하며, LLM의 한계가 성능에 영향을 미칠 수 있습니다.
◦
D4RL 데이터셋에 대한 실험 결과만 제시되었으며, 다른 도메인으로의 일반화 성능은 추가 연구가 필요합니다.