강화 학습은 누적 보상에 기반하여 제어 정책을 학습하지만, 인간은 다양한 수준의 경험에서 차별적으로 학습하여 의사 결정 최적화를 위한 통찰력을 얻습니다. 본 논문은 이러한 인간 학습 방식에 영감을 받아, 다단계 정보를 추출하여 다단계 경험으로부터 학습하는 새로운 다단계 강화 학습 방법을 개발했습니다. 이 방법은 기존의 평가 기반 강화 학습을 활용하여 상태 또는 상태-행동 쌍의 가치를 나타내는 내재적 보상 신호를 추론하고, 서로 다른 수준의 경험으로부터 방향 정보를 추출하여 정책을 업데이트합니다. 특히, 정책과 서로 다른 수준의 경험 간의 분포 유사성에 페널티를 부과하고, 성능 수준에 따라 페널티 항에 다른 가중치를 부여하는 새로운 정책 손실 함수를 제안합니다.