Sign In

Value Bonuses using Ensemble Errors for Exploration in Reinforcement Learning

Created by
  • Haebom
Category
Empty

μ €μž

Abdul Wahab, Raksha Kumaraswamy, Martha White

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅μ—μ„œ 탐색을 μœ„ν•œ μƒˆλ‘œμš΄ 방법둠인 Value Bonuses with Ensemble errors (VBE)λ₯Ό μ œμ•ˆν•œλ‹€. VBEλŠ” 행동-κ°€μΉ˜ ν•¨μˆ˜ μ•™μƒλΈ”μ˜ 예츑 였차λ₯Ό ν™œμš©ν•˜μ—¬ 첫 방문에 λŒ€ν•œ λ‚™κ΄€μ£Όμ˜λ₯Ό μ œκ³΅ν•˜κ³  κΉŠμ€ 탐색을 μœ λ„ν•˜λŠ” κ°€μΉ˜ λ³΄λ„ˆμŠ€λ₯Ό μ„€κ³„ν•œλ‹€. μ œμ•ˆλœ VBEλŠ” 기쑴의 탐색 방법둠듀보닀 μš°μˆ˜ν•œ μ„±λŠ₯을 보이며 Atari와 같은 λ³΅μž‘ν•œ ν™˜κ²½μ—μ„œλ„ ν™•μž₯성을 보여쀀닀.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
VBEλŠ” 앙상블 예츑 였차λ₯Ό μ‚¬μš©ν•˜μ—¬ 탐색을 μœ„ν•œ 효과적인 κ°€μΉ˜ λ³΄λ„ˆμŠ€λ₯Ό μƒμ„±ν•¨μœΌλ‘œμ¨ 첫 λ°©λ¬Έ λ‚™κ΄€μ£Όμ˜λ₯Ό λ‹¬μ„±ν•œλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 기쑴의 λŒ€ν‘œμ μΈ 탐색 μ•Œκ³ λ¦¬μ¦˜λ“€λ³΄λ‹€ μ—¬λŸ¬ ν™˜κ²½μ—μ„œ 더 λ‚˜μ€ μ„±λŠ₯을 보인닀.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” VBE의 λ³΅μž‘ν•œ ν™˜κ²½μ—μ„œμ˜ μ„±λŠ₯을 λ”μš± κ°œμ„ ν•˜κ³ , μ‹€μ œ λ‘œλ΄‡ μ œμ–΄μ™€ 같은 μ‘μš© 뢄야에 μ μš©ν•˜λŠ” λ°©μ•ˆμ„ 탐ꡬ할 수 μžˆλ‹€.
πŸ‘