haebom
Sign In
Revisiting Regularized Policy Optimization for Stable and Efficient Reinforcement Learning in Two-Player Games
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Kazuki Ota, Takayuki Osa, Motoki Omura, Tatsuya Harada
π‘ κ°μ
λ³Έ μ°κ΅¬λ 2μΈ νλ μ΄μ΄ κ²μμμ κ°ννμ΅μ μμ μ±κ³Ό ν¨μ¨μ±μ λμ΄κΈ° μν΄ μ Kullback-Leibler(KL) μ κ·νμ μνΈλ‘νΌ μ κ·νλ₯Ό κ²°ν©ν μ μ± μ΅μ ν λ°©λ²μ μ΄λ‘ μ , κ²½νμ μΌλ‘ λΆμν©λλ€. μ μλ λ°©λ²μ μ κ·ν κ²μ λ° μ ν κΈΈμ΄ κ²μμμ μ μ± μ λ°μ΄νΈ κ·μΉμ μμ μ±μ λν μλ‘μ΄ μλ ΄ 보μ₯μ μ 곡νλ©°, 5κ°μ§ 보λ κ²μ νκ²½μμ κΈ°μ‘΄ λ°©λ² λλΉ λ ν¨μ¨μ μΈ νμ΅ μ±λ₯μ empirically μ μ¦ν©λλ€.
π μμ¬μ λ° νκ³
β’
2μΈ νλ μ΄μ΄ μ λ‘μ¬ κ²μ νκ²½μμ μ κ·νλ μ μ± μ΅μ ν λ°©λ²λ‘ μ μ΄λ‘ μ μμ μ± λ° μλ ΄μ±μ λν μλ‘μ΄ λΆμκ³Ό 보μ₯μ μ μν©λλ€.
β’
μ μλ μκ³ λ¦¬μ¦μ Animal Shogi, Gardner Chess, Go, Hex, Othello λ± λ€μν 보λ κ²μμμ κΈ°μ‘΄ λ°©λ² λλΉ μ°μν νμ΅ ν¨μ¨μ±μ 보μμ΅λλ€.
β’
μ μλ μ΄λ‘ μ λΆμ λ° μ€ν κ²°κ³Όλ ν₯ν λ 볡μ‘ν 2μΈ νλ μ΄μ΄ κ²μ νκ²½μμμ κ°ννμ΅ μκ³ λ¦¬μ¦ κ°λ°μ κΈ°μ¬ν μ μμ΅λλ€.
β’
λ Όλ¬Έμ μ΄λ‘ μ λΆμμ νΉμ κ°μ νμ μ΄λ£¨μ΄μ‘μΌλ©°, μ€μ 볡μ‘ν κ²μ νκ²½μμμ λͺ¨λ μ μ¬μ λΆμμ μ±μ μμ ν ν΄κ²°νμ§ λͺ»ν μ μμ΅λλ€.
PDF 보기
Made with Slashpage