λ³Έ λ
Όλ¬Έμ κΈ°μ‘΄ λ°μ΄ν°(prior data)λ₯Ό νμ©νμ¬ μ¨λΌμΈ κ°ννμ΅μ νλ ¨ μλλ₯Ό λμ΄λ κ³Όμ μμ λ°μνλ κ³μ° λΉμ©κ³Ό λ€λ¨κ³ νλ ¨μ λ¨μ μ ν΄κ²°νκΈ° μν΄ SOPE(Stabilizing Off-Policy Evaluation) μκ³ λ¦¬μ¦μ μ μν©λλ€. SOPEλ μ‘ν°μ λ§μΆ°μ§ μ€ν μ μ±
νκ°(OPE) μ νΈλ₯Ό νμ©νμ¬ μ€νλΌμΈ νλ ¨ λ¨κ³μ κΈΈμ΄λ₯Ό λμ μΌλ‘ μ‘°μ νλ μλ μ‘°κΈ° μ’
λ£ λ©μ»€λμ¦μ λμ
ν©λλ€. μ΄λ₯Ό ν΅ν΄ μλ νλ μμ΄λ κ³Όλν μ¬μ μ§μ νμ©μ΄λ μ¬κ°ν κ³Όμ ν©μ λ°©μ§νλ©°, λ²€μΉλ§ν¬ μ€νμμ μλΉν μ±λ₯ ν₯μκ³Ό κ³μ° ν¨μ¨μ± μ¦λλ₯Ό λ¬μ±νμ΅λλ€.