Sign In

Generalised Linear Models in Deep Bayesian RL with Learnable Basis Functions

Created by
  • Haebom
Category
Empty

μ €μž

Jingyang You, Hanna Kurniawati

πŸ’‘ κ°œμš”

λ³Έ 논문은 κΈ°μ‘΄ λ² μ΄μ§€μ•ˆ κ°•ν™”ν•™μŠ΅(BRL)이 λͺ…μ‹œμ μœΌλ‘œ λ² μ΄μ§€μ•ˆ μž‘μ—… λ§€κ°œλ³€μˆ˜λ₯Ό μ‚¬μš©ν•˜μ§€λ§Œ, λͺ¨λΈ ν˜•νƒœλ₯Ό 사전 κ°€μ •ν•΄μ•Ό ν•˜λŠ” μ œμ•½μ„ ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μΌλ°˜ν™” μ„ ν˜• λͺ¨λΈ(GLiBRL)을 μ œμ•ˆν•œλ‹€. GLiBRL은 μž‘μ—… λ§€κ°œλ³€μˆ˜ 및 λͺ¨λΈ λ…Έμ΄μ¦ˆμ— λŒ€ν•œ μ™„λ²½ν•˜κ²Œ 닀루기 μ‰¬μš΄ λ² μ΄μ§€μ•ˆ μΆ”λ‘ κ³Ό μ •ν™•ν•œ μ£Όλ³€ μš°λ„ 평가λ₯Ό 톡해 전이 및 보상 λͺ¨λΈμ„ ν•™μŠ΅ν•œλ‹€. 이λ₯Ό 톡해 λͺ…ν™•ν•œ μž‘μ—… ν‘œν˜„μ„ ν•™μŠ΅ν•˜κ³ , 온/μ˜€ν”„ μ •μ±… RL μ•Œκ³ λ¦¬μ¦˜μ— 톡합 κ°€λŠ₯ν•˜λ©°, Meta-RL λ²€μΉ˜λ§ˆν¬μ—μ„œ μ΅œμ²¨λ‹¨ μ„±λŠ₯을 ν–₯μƒμ‹œν‚¨λ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ² μ΄μ§€μ•ˆ κ°•ν™”ν•™μŠ΅μ—μ„œ 신경망 직접 μ‚¬μš©μœΌλ‘œ μΈν•œ λΆˆλΆ„λͺ…ν•œ μž‘μ—… ν‘œν˜„ 문제λ₯Ό ν•΄κ²°ν•˜κ³ , ν•™μŠ΅ κ°€λŠ₯ν•œ κΈ°μ € ν•¨μˆ˜λ₯Ό ν™œμš©ν•œ μΌλ°˜ν™” μ„ ν˜• λͺ¨λΈμ„ λ„μž…ν•˜μ—¬ λ² μ΄μ§€μ•ˆ 좔둠을 효율적으둜 μˆ˜ν–‰ν•  수 μžˆλ‹€.
β€’
μ •ν™•ν•œ λ² μ΄μ§€μ•ˆ 좔둠을 톡해 μž‘μ—… ν‘œν˜„μ˜ $\mathcal{L}_2$ 거리와 μž‘μ—… μƒ˜ν”Œ κ°„μ˜ κ²½ν—˜μ  컀널 기반 λŒ€μ‘ 관계에 λŒ€ν•œ ꡬ쑰적 κ²°κ³Όλ₯Ό 졜초둜 μ œμ‹œν•œλ‹€.
β€’
MuJoCo 및 MetaWorld λ²€μΉ˜λ§ˆν¬μ—μ„œ κΈ°μ‘΄ 및 μ΅œμ‹  Meta-RL 방법 λŒ€λΉ„ μ΅œλŒ€ 1.8배의 μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν•˜μ—¬ μ‹€μ§ˆμ μΈ νš¨μš©μ„±μ„ μž…μ¦ν•œλ‹€.
β€’
μ œμ•ˆλœ GLiBRL의 λ³΅μž‘μ„±μ΄ 컀짐에 따라 μ‹€μ œ 적용 μ‹œ 계산 λΉ„μš©μ΄λ‚˜ ν™•μž₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆλ‹€.
πŸ‘