DACERv2: Efficient Online Reinforcement Learning with Diffusion Policies
개요
DACERv2는 확산 모델의 표현 능력을 활용하여 온라인 강화 학습의 효율성을 개선하는 것을 목표로 한다. DACER의 주요 과제였던 확산 단계 수와 성능 간의 trade-off 문제를 해결하기 위해, Q-gradient field를 보조 최적화 목표로 활용하여 각 확산 단계에서 denoising 과정을 안내한다. 또한 확산 시간 단계와 일관성을 갖도록 temporal weighting 기법을 도입하여 초기 단계에서 큰 규모의 노이즈를 제거하고 후반 단계에서 출력을 개선한다. OpenAI Gym 벤치마크 및 다중 모드 작업에서 실험한 결과, DACERv2는 적은 확산 단계 수(5단계)로도 기존 및 확산 기반 온라인 RL 알고리즘보다 높은 성능을 보였으며, 더 나은 다중 모드 학습 능력을 입증했다.
시사점, 한계점
•
시사점:
◦
Q-gradient field를 활용한 보조 최적화 목표 설정을 통해 단일 단계 확산의 효율성 향상.
◦
temporal weighting mechanism 도입으로 확산 과정의 temporal 특성을 반영하여 성능 개선.