Sign In

AdaGamma: State-Dependent Discounting for Temporal Adaptation in Reinforcement Learning

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yaomin Wang, Jianting Pan, Ran Tian, Xiaoyang Li, Yu Zhang, Hengle Qin, Tianshu YU

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅μ—μ„œ λͺ¨λ“  μƒνƒœμ— λŒ€ν•΄ λ‹¨μΌν•œ κ³ μ •κ°’μœΌλ‘œ μ‚¬μš©λ˜λŠ” 할인 κ³„μˆ˜(discount factor)λ₯Ό μƒνƒœμ— 따라 λ™μ μœΌλ‘œ μ‘°μ ˆν•˜λŠ” AdaGamma 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. AdaGammaλŠ” ν•™μŠ΅ κ°€λŠ₯ν•œ μƒνƒœ 쒅속 할인 ν•¨μˆ˜μ™€ λ°˜ν™˜ 일관성 λͺ©ν‘œλ₯Ό 톡해 TD 였차 λΆ•κ΄΄λ₯Ό λ°©μ§€ν•˜λ©°, μ΄λŠ” 심측 κ°•ν™”ν•™μŠ΅μ˜ λΆˆμ•ˆμ •μ„±μ„ ν•΄κ²°ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, AdaGammaλŠ” SAC 및 PPO μ•Œκ³ λ¦¬μ¦˜μ— ν†΅ν•©λ˜μ–΄ 연속 μ œμ–΄ λ²€μΉ˜λ§ˆν¬μ—μ„œ κΎΈμ€€ν•œ μ„±λŠ₯ ν–₯상을 λ³΄μ˜€μœΌλ©°, μ‹€μ œ JD Logistics ν”Œλž«νΌ A/B ν…ŒμŠ€νŠΈμ—μ„œλ„ μœ μ˜λ―Έν•œ μ„±κ³Όλ₯Ό κ±°λ‘μ—ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μƒνƒœ 쒅속 할인 κ³„μˆ˜λ₯Ό 톡해 κ°•ν™”ν•™μŠ΅ μ—μ΄μ „νŠΈμ˜ κ³„νš κΈ°κ°„κ³Ό λΆ€νŠΈμŠ€νŠΈλž˜ν•‘ 강도λ₯Ό λ™μ μœΌλ‘œ μ‘°μ ˆν•˜μ—¬ ν•™μŠ΅ νš¨μœ¨μ„±μ„ 높일 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ°˜ν™˜ 일관성 λͺ©ν‘œλ₯Ό λ„μž…ν•¨μœΌλ‘œμ¨ μƒνƒœ 쒅속 할인 ν•¨μˆ˜κ°€ μ•ΌκΈ°ν•  수 μžˆλŠ” λΆˆμ•ˆμ •μ„±κ³Ό TD 였차 λΆ•κ΄΄ ν˜„μƒμ„ 효과적으둜 μ™„ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ AdaGamma 방법둠은 λ‹€μ–‘ν•œ 심측 κ°•ν™”ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ— μ‰½κ²Œ 톡합될 수 있으며, μ‹€μ œ 적용 μ‚¬λ‘€μ—μ„œλ„ κ·Έ μœ νš¨μ„±μ΄ μž…μ¦λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
β€’
이둠적 뢄석은 기본적인 잘 μ •μ˜λœ μ„±μ§ˆμ„ ν™•λ¦½ν•˜μ§€λ§Œ, 더 λ³΅μž‘ν•˜κ³  λΉ„μ„ ν˜•μ μΈ 할인 ν•¨μˆ˜μ— λŒ€ν•œ μ•ˆμ •μ„± 및 μˆ˜λ ΄μ„± 뢄석은 μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘