로봇 강화학습(RL)은 대규모 실세계 시행착오 데이터 부족을 보완하기 위해 부족한 주요 학습 목표를 보완하는 신중하게 설계된 보조 보상에 의존하는 경우가 많습니다. 이러한 보조 보상은 학습을 가속화하지만 상당한 엔지니어링 노력이 필요하고, 인간의 편향을 도입할 수 있으며, 훈련 중 로봇의 진화하는 기능에 적응할 수 없습니다. 본 논문에서는 로봇 RL에 대한 보조 보상 적응을 자동화하는 교사-학생 프레임워크인 보상 훈련 바퀴(RTW)를 소개합니다. 구체적으로, RTW 교사는 주요 목표를 개선하기 위해 어떤 보조 보상 측면에 더 많은 또는 더 적은 강조가 필요한지 판단하기 위해 학생의 진화하는 기능에 따라 보조 보상 가중치를 동적으로 조정합니다. 본 논문에서는 매우 제한된 공간에서의 탐색 및 수직적으로 까다로운 지형에서의 오프로드 차량 이동성이라는 두 가지 어려운 로봇 작업에 대해 RTW를 시연합니다. 시뮬레이션에서 RTW는 탐색 성공률에서 전문가가 설계한 보상보다 2.35% 향상되었고, 오프로드 이동성 성능을 122.62% 향상시키는 동시에 각각 35% 및 3배 더 빠른 훈련 효율을 달성했습니다. 실제 로봇 실험은 RTW의 효과를 추가로 검증하여 완벽한 성공률(5/5 시도 대 전문가가 설계한 보상의 2/5)을 달성하고 최대 47.4%의 방향 각도 감소로 차량 안정성을 향상시켰습니다.