Sign In

ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization

Created by
  • Haebom
Category
Empty

저자

Chen Bo Calvin Zhang, Zhang-Wei Hong, Aldo Pacchiano, Pulkit Agrawal

개요

강화학습에서 복잡한 과제의 학습을 방해하는 희소 보상 문제를 해결하기 위해 보상 형성이 중요합니다. 본 논문에서는 다수의 보상 함수 중 효과적인 보상 함수를 계산 효율적으로 선택하는 문제를 온라인 모델 선택 문제로 재구성하는 새로운 방법인 ORSO(Online Reward Selection and Policy Optimization)를 제안합니다. ORSO는 사람의 개입 없이 성능이 좋은 보상 함수를 자동으로 식별하며, 입증 가능한 후회(regret) 보장을 제공합니다. 다양한 연속 제어 과제에서 ORSO의 효과를 보여주며, 기존 방법과 비교하여 보상 함수 평가에 필요한 데이터 양을 크게 줄여 데이터 효율성을 높이고 계산 시간을 최대 8배까지 단축합니다. ORSO는 기존 방법보다 50% 이상 성능이 좋은 보상 함수를 지속적으로 식별하며, 평균적으로 도메인 전문가가 수동으로 설계한 보상 함수를 사용하여 학습된 정책과 동등한 성능의 정책을 식별합니다.

시사점, 한계점

시사점:
온라인 모델 선택 방식을 통해 효과적인 보상 함수를 자동으로 선택, 사람의 개입 최소화.
기존 방법 대비 데이터 효율 및 계산 시간을 크게 개선 (최대 8배 감소).
기존 방법보다 50% 이상 높은 성능의 보상 함수를 일관되게 식별.
전문가 수준의 수동 설계 보상 함수와 유사한 성능의 정책을 학습.
입증 가능한 후회(regret) 보장 제공.
한계점:
논문에서 제시된 연속 제어 과제 외 다른 유형의 과제에 대한 일반화 성능은 추가 연구 필요.
ORSO의 성능이 특정 유형의 보상 함수나 과제에 편향될 가능성에 대한 분석 필요.
후회(regret) 보장의 실제 적용 가능성 및 한계에 대한 추가적인 검토 필요.
👍