고정된 보상 구조의 경직성과 암묵적 보상 정규화의 제한된 유연성을 완화하는 새로운 역강화 학습(IRL) 방법 제안. 최대 엔트로피 IRL 프레임워크를 기반으로, 훈련 중 동적으로 진화하는 적응형 타겟을 가진 제곱 시간차(TD) 정규화를 통합하여 회복된 보상에 적응형 경계를 부과하고 강력한 의사 결정을 촉진. 풍부한 반환 정보를 포착하기 위해 분포 RL을 학습 과정에 통합. 복잡한 MuJoCo 및 Adroit 환경에서 전문가 수준의 성능을 달성했으며, 제한된 전문가 데모를 통해 Humanoid-v2 작업에서 기준선을 능가.