강화학습(RL) 에이전트는 다양한 로봇 작업에서 잠재력을 보여주었지만, 여전히 사람이 설계한 보상 함수에 크게 의존하며 많은 시행착오와 목표 행동 정보(실제 환경에서는 종종 얻기 어려움)에 접근해야 합니다. 본 논문에서는 최소한의 감독만으로 동작이 없는 비디오를 활용하는 새로운 보상 학습 프레임워크인 REDS(REward learning from Demonstration with Segmentations)를 소개합니다. REDS는 다양한 출처에서 하위 작업으로 분할된 비디오 시범을 활용하고 이러한 세그먼트를 기준 보상으로 취급합니다. Equivalent-Policy Invariant Comparison 거리를 최소화하여 비디오 세그먼트 및 해당 하위 작업을 조건으로 하는 밀집 보상 함수를 훈련하여 기준 보상 신호와의 정렬을 보장합니다. 또한, 대조 학습 목표를 사용하여 비디오 표현과 하위 작업을 정렬하여 온라인 상호 작용 중 정확한 하위 작업 추론을 보장합니다. 실험 결과, REDS는 Meta-World의 복잡한 로봇 조작 작업과 FurnitureBench의 가구 조립과 같은 더욱 어려운 실제 작업에서 최소한의 인간 개입으로 기준 방법보다 성능이 크게 향상됨을 보여줍니다. 또한, REDS는 보이지 않는 작업과 로봇 구현으로의 일반화를 용이하게 하여 다양한 환경에서 확장 가능한 배포에 대한 잠재력을 강조합니다.