haebom
Sign In
AdaGamma: State-Dependent Discounting for Temporal Adaptation in Reinforcement Learning
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Yaomin Wang, Jianting Pan, Ran Tian, Xiaoyang Li, Yu Zhang, Hengle Qin, Tianshu YU
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κ°ννμ΅μμ λͺ¨λ μνμ λν΄ λ¨μΌν κ³ μ κ°μΌλ‘ μ¬μ©λλ ν μΈ κ³μ(discount factor)λ₯Ό μνμ λ°λΌ λμ μΌλ‘ μ‘°μ νλ AdaGamma λ°©λ²μ μ μν©λλ€. AdaGammaλ νμ΅ κ°λ₯ν μν μ’ μ ν μΈ ν¨μμ λ°ν μΌκ΄μ± λͺ©νλ₯Ό ν΅ν΄ TD μ€μ°¨ λΆκ΄΄λ₯Ό λ°©μ§νλ©°, μ΄λ μ¬μΈ΅ κ°ννμ΅μ λΆμμ μ±μ ν΄κ²°ν©λλ€. μ€ν κ²°κ³Ό, AdaGammaλ SAC λ° PPO μκ³ λ¦¬μ¦μ ν΅ν©λμ΄ μ°μ μ μ΄ λ²€μΉλ§ν¬μμ κΎΈμ€ν μ±λ₯ ν₯μμ 보μμΌλ©°, μ€μ JD Logistics νλ«νΌ A/B ν μ€νΈμμλ μ μλ―Έν μ±κ³Όλ₯Ό κ±°λμμ΅λλ€.
π μμ¬μ λ° νκ³
β’
μν μ’ μ ν μΈ κ³μλ₯Ό ν΅ν΄ κ°ννμ΅ μμ΄μ νΈμ κ³ν κΈ°κ°κ³Ό λΆνΈμ€νΈλν κ°λλ₯Ό λμ μΌλ‘ μ‘°μ νμ¬ νμ΅ ν¨μ¨μ±μ λμΌ μ μμ΅λλ€.
β’
λ°ν μΌκ΄μ± λͺ©νλ₯Ό λμ ν¨μΌλ‘μ¨ μν μ’ μ ν μΈ ν¨μκ° μΌκΈ°ν μ μλ λΆμμ μ±κ³Ό TD μ€μ°¨ λΆκ΄΄ νμμ ν¨κ³Όμ μΌλ‘ μνν μ μμ΅λλ€.
β’
μ μλ AdaGamma λ°©λ²λ‘ μ λ€μν μ¬μΈ΅ κ°ννμ΅ μκ³ λ¦¬μ¦μ μ½κ² ν΅ν©λ μ μμΌλ©°, μ€μ μ μ© μ¬λ‘μμλ κ·Έ μ ν¨μ±μ΄ μ μ¦λμμ΅λλ€.
β’
μ΄λ‘ μ λΆμμ κΈ°λ³Έμ μΈ μ μ μλ μ±μ§μ ν립νμ§λ§, λ 볡μ‘νκ³ λΉμ νμ μΈ ν μΈ ν¨μμ λν μμ μ± λ° μλ ΄μ± λΆμμ μΆκ° μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage