Distributional Soft Actor-Critic with Diffusion Policy
Created by
Haebom
저자
Tong Liu, Yinuo Wang, Xujie Song, Wenjun Zou, Liangfa Chen, Likun Wang, Bin Shuai, Jingliang Duan, Shengbo Eben Li
개요
본 논문은 가치 함수 추정의 편향 문제와 다봉성 정책 표현 획득의 어려움을 해결하기 위해, 확산 정책을 사용하는 분포 강화 학습 알고리즘 DSAC-D(Distributed Soft Actor Critic with Diffusion Policy)를 제안합니다. 기존의 단봉 분포(예: 가우시안 분포) 기반 방법들의 한계를 극복하고자, 정책 엔트로피와 가치 분포 함수를 도입하여 최적 정책으로 수렴하는 다봉성 분포 정책 반복 프레임워크를 구축했습니다. 확산 모델을 이용한 역추출을 통해 보상 샘플 집합을 생성하여 다봉 분포를 정확하게 특징짓는 확산 가치 네트워크를 구성하고, 가치 네트워크와 정책 네트워크의 이중 확산을 기반으로 하는 분포 강화 학습 알고리즘을 도출했습니다. MuJoCo 제어 과제 9개에서 기존 최첨단 알고리즘 대비 평균 10% 이상의 성능 향상과 편향 억제 효과를 보였으며, 실제 차량 테스트에서도 다양한 운전 스타일의 다봉성 분포와 다봉성 궤적을 정확하게 특징짓는 것을 확인했습니다.
시사점, 한계점
•
시사점:
◦
가치 함수 추정의 편향 문제를 효과적으로 해결하는 새로운 분포 강화 학습 알고리즘 제시
◦
다봉성 정책 표현을 학습하여 복잡한 제어 과제에 대한 성능 향상
◦
MuJoCo 및 실제 차량 테스트를 통한 알고리즘의 우수성 검증 (9개의 MuJoCo 제어 과제에서 SOTA 달성 및 10% 이상 성능 향상)