본 논문은 강화학습에서 피드백 제공을 위한 기존 방법(수동으로 설계된 보상 또는 전체 경로 전문가 시연)의 대안으로, 완료된 작업의 예시를 사용하는 방법을 제시합니다. 하지만 이 방법은 표본 효율이 매우 낮을 수 있습니다. 본 논문에서는 간단한 보조 작업의 예시와 성공 수준 이상의 값 페널티를 추가하여 예시 기반 제어에서 탐색을 크게 개선하는 알고리즘인 Value-Penalized Auxiliary Control from Examples (VPACE)를 소개합니다. 시뮬레이션 및 실제 로봇 환경 모두에서 본 연구는 VPACE가 어려운 작업에 대한 학습 효율을 크게 향상시키면서 값 추정치의 경계를 유지함을 보여줍니다. 또한 초기 결과는 VPACE가 전체 경로 또는 진정한 희소 보상을 사용하는 더 일반적인 방법보다 더 효율적으로 학습할 수 있음을 시사합니다.