강화학습에서 복잡한 과제의 학습을 방해하는 희소 보상 문제를 해결하기 위해 보상 형성이 중요합니다. 본 논문에서는 다수의 보상 함수 중 효과적인 보상 함수를 계산 효율적으로 선택하는 문제를 온라인 모델 선택 문제로 재구성하는 새로운 방법인 ORSO(Online Reward Selection and Policy Optimization)를 제안합니다. ORSO는 사람의 개입 없이 성능이 좋은 보상 함수를 자동으로 식별하며, 입증 가능한 후회(regret) 보장을 제공합니다. 다양한 연속 제어 과제에서 ORSO의 효과를 보여주며, 기존 방법과 비교하여 보상 함수 평가에 필요한 데이터 양을 크게 줄여 데이터 효율성을 높이고 계산 시간을 최대 8배까지 단축합니다. ORSO는 기존 방법보다 50% 이상 성능이 좋은 보상 함수를 지속적으로 식별하며, 평균적으로 도메인 전문가가 수동으로 설계한 보상 함수를 사용하여 학습된 정책과 동등한 성능의 정책을 식별합니다.