haebom
Sign In
Boosting deep Reinforcement Learning using pretraining with Logical Options
Created by
Haebom
Category
Empty
μ μ
Zihan Ye, Phil Chau, Raban Emunds, Jannis Bl
uml, Cedric Derstroff, Quentin Delfosse, Oleg Arenz, Kristian Kersting
π‘ κ°μ
λ³Έ μ°κ΅¬λ λ₯ κ°ννμ΅ μμ΄μ νΈκ° μ΄λ° 보μ μ νΈμ κ³Όλνκ² μ§μ€νλ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ λ Όλ¦¬μ μ΅μ μ νμ©ν μ¬μ νμ΅μ μ μν©λλ€. μ μνλ νμ΄λΈλ¦¬λ κ³μΈ΅ κ°ννμ΅(H^2RL)μ μ κ²½λ§ κΈ°λ° κ°ννμ΅μ μμ§μ ꡬ쑰λ₯Ό ν΅ν©νμ¬ λ¨κΈ° 보μ 루νμμ λ²μ΄λ λͺ©ν μ§ν₯μ νλμ μ λνλ©°, μ΅μ’ μ μ± μ νκ²½κ³Όμ μνΈμμ©μ ν΅ν΄ μ μ λ©λλ€. μ€ν κ²°κ³Ό, μ΄ μ κ·Ό λ°©μμ μ₯κΈ° μμ¬κ²°μ μ μ§μμ μΌλ‘ κ°μ νκ³ κΈ°μ‘΄ μ κ²½λ§, μμ§μ , μ κ²½-μμ§μ κΈ°λ° λͺ¨λΈμ λ₯κ°νλ μμ΄μ νΈλ₯Ό μμ±ν¨μ 보μ¬μ€λλ€.
π μμ¬μ λ° νκ³
β’
λ₯ κ°ννμ΅μ λ¨κΈ° 보μ νΈν₯ λ¬Έμ λ₯Ό μννκ³ μ₯κΈ°μ μΈ λͺ©ν λ¬μ±μ μ΄μ§νλ ν¨κ³Όμ μΈ μ¬μ νμ΅ λ°©λ²μ μ μν©λλ€.
β’
κΈ°μ‘΄μ μμ μμ§μ μ κ·Ό λ°©μμ νμ₯μ± λ° μ°μμ μΈ νκ²½ μ μ©μ μ΄λ €μμ 극볡νλ νμ΄λΈλ¦¬λ μ κ²½-μμ§μ ꡬ쑰μ κ°λ₯μ±μ 보μ¬μ€λλ€.
β’
μ μλ λ°©λ²λ‘ μ ν¨μ¨μ±μ μ μ¦νκΈ° μν΄ λ€μν λ²€μΉλ§ν¬ νκ²½μμμ μΆκ°μ μΈ κ²μ¦ λ° μΌλ°ν λ₯λ ₯ νκ°κ° νμν©λλ€.
PDF 보기
Made with Slashpage