Distributional Soft Actor-Critic with Diffusion Policy
Created by
Haebom
저자
Tong Liu, Yinuo Wang, Xujie Song, Wenjun Zou, Liangfa Chen, Likun Wang, Bin Shuai, Jingliang Duan, Shengbo Eben Li
개요
본 논문은 가치 함수 추정의 편향 문제와 다봉형 정책 표현 획득 문제를 해결하기 위해, 확산 정책을 사용하는 분포 강화 학습 알고리즘인 DSAC-D(Distributed Soft Actor Critic with Diffusion Policy)를 제안합니다. 기존의 단봉형 분포(예: 가우시안 분포) 대신, 다봉형 분포를 모델링하여 가치 분포를 더욱 정확하게 추정하고, 정책 엔트로피와 가치 분포 함수를 도입하여 최적 정책으로 수렴하는 다봉형 분포 정책 반복 프레임워크를 구축합니다. 확산 모델을 이용한 역방향 샘플링을 통해 보상 샘플 집합을 생성하여 다봉형 분포를 정확하게 특징짓는 확산 가치 네트워크를 구성하고, 가치 네트워크와 정책 네트워크의 이중 확산을 기반으로 분포 강화 학습 알고리즘을 도출합니다. MuJoCo 시뮬레이션과 실제 차량 테스트 결과, DSAC-D는 다봉형 정책을 학습하고 기존 알고리즘 대비 10% 이상의 평균 수익 향상과 편향 감소를 보이며 SOTA 성능을 달성함을 보여줍니다.