Sign In

Soft Deterministic Policy Gradient with Gaussian Smoothing

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Hyunjun Na, Donghwan Lee

πŸ’‘ κ°œμš”

연속 μ œμ–΄μ— 널리 μ‚¬μš©λ˜λŠ” 결정둠적 μ •μ±… 경사(DPG) 방법은 Q ν•¨μˆ˜μ—μ„œ μ•‘μ…˜μ— λŒ€ν•œ λ―ΈλΆ„ κ°€λŠ₯성을 κ°€μ •ν•˜μ§€λ§Œ, ν¬μ†Œ λ³΄μƒμ΄λ‚˜ 이산 보상 ν™˜κ²½μ—μ„œλŠ” 이 가정이 μœ„λ°°λ˜μ–΄ ν•™μŠ΅ λΆˆμ•ˆμ •μ„±μ„ μ•ΌκΈ°ν•©λ‹ˆλ‹€. λ³Έ 논문은 κ°€μš°μ‹œμ•ˆ μŠ€λ¬΄λ”©μ„ 톡해 벨만 방정식을 ν‰ν™œν™”ν•˜μ—¬ μ•‘μ…˜-경사도에 λŒ€ν•œ λͺ…μ‹œμ  μ˜μ‘΄μ„±μ„ μ œκ±°ν•œ "Soft Deterministic Policy Gradient(Soft-DPG)"λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이λ₯Ό Deep Reinforcement Learning에 μ μš©ν•œ Soft DDPGλŠ” 연속 μ œμ–΄ λ²€μΉ˜λ§ˆν¬μ™€ 이산 보상 λ³€ν˜• ν™˜κ²½ λͺ¨λ‘μ—μ„œ 경쟁λ ₯ μžˆλŠ” μ„±λŠ₯을 보이며, 특히 ν‘œμ€€ DDPGκ°€ λΆˆμ•ˆμ •ν•œ 이산 보상 ν™˜κ²½μ—μ„œ μš°μˆ˜ν•œ μ„±λŠ₯을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ΄μ‚°ν™”λ˜κ±°λ‚˜ ν¬μ†Œν•œ 보상 ν™˜κ²½μ—μ„œλ„ μ•ˆμ •μ μΈ μ •μ±… 경사도 계산을 κ°€λŠ₯ν•˜κ²Œ ν•˜μ—¬ DDPG의 적용 λ²”μœ„λ₯Ό ν™•μž₯ν•©λ‹ˆλ‹€.
β€’
Q ν•¨μˆ˜μ˜ λΆˆμ—°μ†μ„±μ΄λ‚˜ 비ꡬ배성 문제둜 인해 λ°œμƒν•˜λŠ” ν•™μŠ΅ λΆˆμ•ˆμ •μ„±μ„ 효과적으둜 μ™„ν™”ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠이 ν‘œμ€€ DDPG에 λΉ„ν•΄ 계산 λ³΅μž‘μ„±μ΄ 증가할 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘