λ³Έ λ
Όλ¬Έμ μ ν ꡬκ°(finite-horizon)μ MDP(Markov Decision Process)μμ μ€ν-ν΄λ¦¬μ νκ°(off-policy evaluation)λ₯Ό μν μλ‘μ΄ μ΄λ‘ μ νλ μμν¬μΈ Q-MMRμ μ μν©λλ€. Q-MMRμ μ¬κ°μ€μΉ(reweighting)λ 보μμ΄ νκ² μ μ±
(target policy) νμ κΈ°λ λ°ν(expected return)μ κ·Όμ¬νλλ‘ λ°μ΄ν° ν¬μΈνΈλ§λ€ μ€μΉΌλΌ κ°μ€μΉλ₯Ό νμ΅νλ©°, μ΄λ κ° ν¨μ νλ³μ(value-function discriminator) ν΄λμ€λ₯Ό μλλ‘ νλ λͺ¨λ©νΈ λ§€μΉ(moment matching) λͺ©νλ₯Ό ν΅ν΄ κ·λ©μ μΌλ‘ νμ΅λ©λλ€. νΉν, μΌλ°μ μΈ ν¨μ κ·Όμ¬(function approximation)μμλ $Q^\pi$μ μ€ν κ°λ₯μ±(realizability)λ§ λ§μ‘±λλ©΄ λ°μ΄ν° μμ‘΄μ μ΄λ©° μ°¨μ μλ(dimension-free) μ ν νλ³Έ 보μ₯(finite-sample guarantee)μ μ»μ μ μλ€λ μ μ΄ μ£Όλͺ©ν λ§ν©λλ€.