Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Maximum Entropy Reinforcement Learning with Diffusion Policy

Created by
  • Haebom

저자

Xiaoyi Dong, Jian Cheng, Xi Sheryl Zhang

개요

본 논문은 최대 엔트로피 강화 학습(MaxEnt RL) 목표를 달성하기 위해 확산 모델을 정책 표현으로 사용하는 새로운 방법인 MaxEnt RL with Diffusion Policy (MaxEntDP)를 제안합니다. 기존의 Gaussian 정책 기반 SAC 알고리즘은 복잡한 다중 목표 환경에서 탐색 능력과 성능이 제한적이라는 한계를 가지는데, MaxEntDP는 다중 모드 분포를 잘 포착할 수 있는 확산 모델의 장점을 활용하여 이러한 한계를 극복합니다. Mujoco 벤치마크 실험 결과, MaxEntDP는 Gaussian 정책 및 다른 생성 모델 기반 MaxEnt RL 알고리즘을 능가하며, 최신 확산 모델 기반 온라인 강화 학습 알고리즘과 유사한 성능을 보입니다.

시사점, 한계점

시사점:
확산 모델을 MaxEnt RL에 적용하여 효율적인 탐색 및 최적 정책에 근접한 성능 향상을 보임.
Gaussian 정책의 단점인 단봉성을 극복하고 복잡한 다중 목표 환경에서 우수한 성능을 달성.
최신 확산 모델 기반 온라인 강화 학습 알고리즘과 비교 가능한 성능을 보임.
MaxEnt RL에서 확산 모델의 효용성을 실험적으로 증명.
한계점:
Mujoco 벤치마크에 대한 실험 결과만 제시되어 다른 환경에서의 일반화 성능은 추가 검증 필요.
확산 모델의 계산 비용이 Gaussian 정책보다 높을 수 있음. (암시적 한계)
다른 최첨단 온라인 강화학습 알고리즘과의 비교 분석이 더욱 심도있게 이루어질 필요가 있음. (암시적 한계)
👍