Soft Deterministic Policy Gradient with Gaussian Smoothing

작성자

Haebom

카테고리

Empty

저자

Hyunjun Na, Donghwan Lee

💡 개요

연속 제어에 널리 사용되는 결정론적 정책 경사(DPG) 방법은 Q 함수에서 액션에 대한 미분 가능성을 가정하지만, 희소 보상이나 이산 보상 환경에서는 이 가정이 위배되어 학습 불안정성을 야기합니다. 본 논문은 가우시안 스무딩을 통해 벨만 방정식을 평활화하여 액션-경사도에 대한 명시적 의존성을 제거한 "Soft Deterministic Policy Gradient(Soft-DPG)"를 제안합니다. 이를 Deep Reinforcement Learning에 적용한 Soft DDPG는 연속 제어 벤치마크와 이산 보상 변형 환경 모두에서 경쟁력 있는 성능을 보이며, 특히 표준 DDPG가 불안정한 이산 보상 환경에서 우수한 성능을 나타냅니다.

🔑 시사점 및 한계

•

이산화되거나 희소한 보상 환경에서도 안정적인 정책 경사도 계산을 가능하게 하여 DDPG의 적용 범위를 확장합니다.

•

Q 함수의 불연속성이나 비구배성 문제로 인해 발생하는 학습 불안정성을 효과적으로 완화합니다.

•

제안된 방법론이 표준 DDPG에 비해 계산 복잡성이 증가할 수 있습니다.

PDF 보기

Made with Slashpage