Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Distributional Soft Actor-Critic with Diffusion Policy

Created by
  • Haebom

저자

Tong Liu, Yinuo Wang, Xujie Song, Wenjun Zou, Liangfa Chen, Likun Wang, Bin Shuai, Jingliang Duan, Shengbo Eben Li

개요

본 논문은 가치 함수 추정의 편향 문제와 다봉형 정책 표현 획득 문제를 해결하기 위해, 확산 정책을 사용하는 분포 강화 학습 알고리즘인 DSAC-D(Distributed Soft Actor Critic with Diffusion Policy)를 제안합니다. 기존의 단봉형 분포(예: 가우시안 분포) 대신, 다봉형 분포를 모델링하여 가치 분포를 더욱 정확하게 추정하고, 정책 엔트로피와 가치 분포 함수를 도입하여 최적 정책으로 수렴하는 다봉형 분포 정책 반복 프레임워크를 구축합니다. 확산 모델을 이용한 역방향 샘플링을 통해 보상 샘플 집합을 생성하여 다봉형 분포를 정확하게 특징짓는 확산 가치 네트워크를 구성하고, 가치 네트워크와 정책 네트워크의 이중 확산을 기반으로 분포 강화 학습 알고리즘을 도출합니다. MuJoCo 시뮬레이션과 실제 차량 테스트 결과, DSAC-D는 다봉형 정책을 학습하고 기존 알고리즘 대비 10% 이상의 평균 수익 향상과 편향 감소를 보이며 SOTA 성능을 달성함을 보여줍니다.

시사점, 한계점

시사점:
가치 함수 추정의 편향 문제를 효과적으로 해결하는 새로운 분포 강화 학습 알고리즘 제시.
다봉형 정책 표현을 학습하여 복잡한 제어 문제에 대한 성능 향상.
MuJoCo 및 실제 차량 테스트를 통해 알고리즘의 효과성과 실용성 검증.
기존 알고리즘 대비 10% 이상의 평균 수익 향상 및 SOTA 성능 달성.
다양한 운전 스타일의 다봉형 분포 정확하게 특징짓는 능력 확인.
한계점:
제안된 알고리즘의 계산 복잡도에 대한 분석 부족.
다양한 환경에서의 일반화 성능에 대한 추가적인 연구 필요.
실제 차량 테스트의 규모 및 세부 내용에 대한 자세한 설명 부족.
확산 모델의 매개변수 설정 및 최적화에 대한 자세한 논의 부족.
👍