본 논문은 온라인 강화학습에서 확산 모델을 이용한 DACER 알고리즘의 효율성을 개선한 DACER2를 제안합니다. DACER는 역확산 과정을 정책 근사자로 사용하여 우수한 성능을 달성하지만, 많은 확산 단계가 필요하여 훈련 및 추론 효율이 낮다는 한계점이 있습니다. DACER2는 Q-gradient field 목적 함수를 보조 최적화 목표로 도입하여 각 확산 단계에서 잡음 제거 과정을 안내하고, 시간 가중치 메커니즘을 통해 초기 단계에서는 큰 잡음을 효율적으로 제거하고 후기 단계에서는 행동을 세밀하게 조정합니다. 결과적으로 MuJoCo 벤치마크 및 다중 모드 작업에서 DACER2는 단 5단계의 확산만으로도 대부분의 작업에서 최첨단 성능을 달성하고, DACER보다 강화된 다중 모드 성능을 보입니다.
시사점, 한계점
•
시사점:
◦
온라인 강화학습에서 확산 모델의 효율성을 크게 향상시켰습니다.
◦
Q-gradient field 목적 함수와 시간 가중치 메커니즘을 통해 훈련 및 추론 속도를 개선했습니다.
◦
MuJoCo 벤치마크에서 최첨단 성능을 달성하고, 다중 모드 성능을 향상시켰습니다.
◦
적은 확산 단계(5단계)만으로도 우수한 성능을 얻을 수 있음을 보였습니다.
•
한계점:
◦
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
◦
다양한 환경에서의 성능 평가가 더 필요합니다.
◦
Q-gradient field의 시간 단계 독립성 문제를 완전히 해결했는지에 대한 추가적인 분석이 필요합니다.