Sign In

Q-MMR: Off-Policy Evaluation via Recursive Reweighting and Moment Matching

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Xiang Li, Nan Jiang

πŸ’‘ κ°œμš”

λ³Έ 논문은 μœ ν•œ 호라이즌 MDPμ—μ„œ μ˜€ν”„-ν΄λ¦¬μ‹œ 평가λ₯Ό μœ„ν•œ μƒˆλ‘œμš΄ 이둠적 ν”„λ ˆμž„μ›Œν¬μΈ Q-MMR을 μ œμ•ˆν•©λ‹ˆλ‹€. Q-MMR은 각 데이터 ν¬μΈνŠΈμ— λŒ€ν•œ 슀칼라 κ°€μ€‘μΉ˜ 집합을 ν•™μŠ΅ν•˜μ—¬, μž¬κ°€μ€‘λœ 보상이 λͺ©ν‘œ μ •μ±… ν•˜μ—μ„œμ˜ κΈ°λŒ€ μˆ˜μ΅μ„ κ·Όμ‚¬ν•˜λ„λ‘ ν•©λ‹ˆλ‹€. 이 κ°€μ€‘μΉ˜λŠ” κ°’ ν•¨μˆ˜ νŒλ³„κΈ° ν΄λž˜μŠ€μ— λŒ€ν•œ λͺ¨λ©˜νŠΈ λ§€μΉ­ λͺ©ν‘œλ₯Ό 톡해 κ·€λ‚©μ μœΌλ‘œ ν•™μŠ΅λ©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
$Q^\pi$의 μ‹€ν˜„ κ°€λŠ₯μ„±λ§ŒμœΌλ‘œλ„ 일반적인 ν•¨μˆ˜ 근사에 λŒ€ν•œ 데이터 쒅속적인 μœ ν•œ ν‘œλ³Έ 보μž₯이 κ°€λŠ₯ν•˜λ©°, 차원 독립적인 λ°”μš΄λ“œλ₯Ό κ°€μ§‘λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 μ€‘μš”λ„ μƒ˜ν”Œλ§ 및 μ„ ν˜• FQE와 같은 κΈ°μ‘΄ λ°©λ²•κ³Όμ˜ 연결성을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ»€λ²„λ¦¬μ§€λΌλŠ” κ°œλ…μ— λŒ€ν•œ μƒˆλ‘œμš΄ 이둠적 뢄석을 μ œκ³΅ν•˜μ—¬ μ˜€ν”„λΌμΈ RLμ—μ„œμ˜ μ€‘μš”μ„±μ„ μ‘°λͺ…ν•©λ‹ˆλ‹€.
β€’
(ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제) λ…Όλ¬Έ μ΄ˆλ‘λ§ŒμœΌλ‘œλŠ” ꡬ체적인 ν•œκ³„μ μ„ λͺ…ν™•νžˆ νŒŒμ•…ν•˜κΈ° μ–΄λ ΅μ§€λ§Œ, λ³΅μž‘ν•œ μ‹€μ œ ν™˜κ²½μ— λŒ€ν•œ ν™•μž₯μ„± 및 계산 νš¨μœ¨μ„± μΈ‘λ©΄μ—μ„œμ˜ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘