Sign In

Q-MMR: Off-Policy Evaluation via Recursive Reweighting and Moment Matching

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Xiang Li, Nan Jiang

πŸ’‘ κ°œμš”

λ³Έ 논문은 μœ ν•œ ꡬ간(finite-horizon)의 MDP(Markov Decision Process)μ—μ„œ μ˜€ν”„-ν΄λ¦¬μ‹œ 평가(off-policy evaluation)λ₯Ό μœ„ν•œ μƒˆλ‘œμš΄ 이둠적 ν”„λ ˆμž„μ›Œν¬μΈ Q-MMR을 μ œμ•ˆν•©λ‹ˆλ‹€. Q-MMR은 μž¬κ°€μ€‘μΉ˜(reweighting)된 보상이 νƒ€κ²Ÿ μ •μ±…(target policy) ν•˜μ˜ κΈ°λŒ€ λ°˜ν™˜(expected return)을 κ·Όμ‚¬ν•˜λ„λ‘ 데이터 ν¬μΈνŠΈλ§ˆλ‹€ 슀칼라 κ°€μ€‘μΉ˜λ₯Ό ν•™μŠ΅ν•˜λ©°, μ΄λŠ” κ°’ ν•¨μˆ˜ νŒλ³„μž(value-function discriminator) 클래슀λ₯Ό μƒλŒ€λ‘œ ν•˜λŠ” λͺ¨λ©˜νŠΈ λ§€μΉ­(moment matching) λͺ©ν‘œλ₯Ό 톡해 κ·€λ‚©μ μœΌλ‘œ ν•™μŠ΅λ©λ‹ˆλ‹€. 특히, 일반적인 ν•¨μˆ˜ 근사(function approximation)μ—μ„œλ„ $Q^\pi$의 μ‹€ν˜„ κ°€λŠ₯μ„±(realizability)만 만쑱되면 데이터 의쑴적이며 차원 μ—†λŠ”(dimension-free) μœ ν•œ ν‘œλ³Έ 보μž₯(finite-sample guarantee)을 얻을 수 μžˆλ‹€λŠ” 점이 μ£Όλͺ©ν•  λ§Œν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μƒˆλ‘œμš΄ 이둠적 ν”„λ ˆμž„μ›Œν¬: μ˜€ν”„-ν΄λ¦¬μ‹œ 평가λ₯Ό μœ„ν•œ Q-MMRμ΄λΌλŠ” μƒˆλ‘œμš΄ 이둠적 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•˜λ©°, μž¬κ°€μ€‘μΉ˜μ™€ λͺ¨λ©˜νŠΈ 맀칭을 κ²°ν•©ν•œ 독창적인 μ ‘κ·Ό 방식을 μ œμ•ˆν•©λ‹ˆλ‹€.
β€’
κ°•λ ₯ν•œ 이둠적 보μž₯: 일반적인 ν•¨μˆ˜ 근사 ν™˜κ²½μ—μ„œλ„ $Q^\pi$의 μ‹€ν˜„ κ°€λŠ₯μ„± 쑰건 ν•˜μ— 데이터 의쑴적이고 차원 μ—†λŠ” μœ ν•œ ν‘œλ³Έ 였λ₯˜ 보μž₯을 μ œκ³΅ν•˜μ—¬, ν•¨μˆ˜ 클래슀의 λ³΅μž‘μ„±μ— 독립적인 κ°•λ ₯ν•œ 이둠적 ν† λŒ€λ₯Ό λ§ˆλ ¨ν•©λ‹ˆλ‹€.
β€’
κΈ°μ‘΄ λ°©λ²•κ³Όμ˜ μ—°κ΄€μ„± 및 μƒˆλ‘œμš΄ 톡찰: μ€‘μš”λ„ μƒ˜ν”Œλ§(importance sampling) 및 μ„ ν˜• FQE(Finite-Q-Learning with Expectations)와 같은 κΈ°μ‘΄ λ°©λ²•κ³Όμ˜ 연관성을 밝히고, 컀버리지(coverage)λΌλŠ” μ˜€ν”„λΌμΈ RLμ—μ„œ 근본적으둜 μ€‘μš”ν•œ κ°œλ…μ— λŒ€ν•œ μƒˆλ‘œμš΄ 톡찰을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
싀증적 검증 ν•„μš”μ„±: μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ 이둠적 μ„±κ³Όλ₯Ό μ‹€μ œ 적용 μ‹œλ‚˜λ¦¬μ˜€μ—μ„œ κ²€μ¦ν•˜κ³ , λ³΅μž‘ν•œ μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ μ„±λŠ₯을 평가할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘