Sign In

Logging Policy Design for Off-Policy Evaluation

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Connor Douglas, Joel Persson, Foster Provost

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λ‹€λ₯Έ 정책에 μ˜ν•΄ μˆ˜μ§‘λœ 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ λͺ©ν‘œ μ •μ±…μ˜ κ°€μΉ˜λ₯Ό μΆ”μ •ν•˜λŠ” μ˜€ν”„ν΄λ¦¬μ‹œ 평가(OPE)μ—μ„œ λ‘œκΉ… μ •μ±… μ„€κ³„μ˜ μ€‘μš”μ„±μ„ λ‹€λ£Ήλ‹ˆλ‹€. 연ꡬ진은 λ‘œκΉ… 정책이 OPE 였λ₯˜λ₯Ό μ΅œμ†Œν™”ν•˜λ„λ‘ μ„€κ³„ν•˜λŠ” 방법을 μ œμ•ˆν•˜λ©°, 보상-컀버리지 νŠΈλ ˆμ΄λ“œμ˜€ν”„λΌλŠ” 근본적인 원칙을 λ°ν˜€λƒ…λ‹ˆλ‹€. λͺ©ν‘œ μ •μ±…κ³Ό 보상 뢄포가 μ•Œλ €μ§„ 경우, μ•Œλ €μ§€μ§€ μ•Šμ€ 경우, λΆ€λΆ„μ μœΌλ‘œ μ•Œλ €μ§„ 경우 λ“± λ‹€μ–‘ν•œ 정보 제곡 ν™˜κ²½μ— λŒ€ν•œ 졜적의 λ‘œκΉ… 정책을 λ„μΆœν•˜μ—¬ μ‹€μ§ˆμ μΈ μ˜μ‚¬κ²°μ •μ„ μœ„ν•œ 지침을 μ œκ³΅ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
OPE 정확도λ₯Ό 높이기 μœ„ν•΄ λ‘œκΉ… 정책을 사전에 μ΅œμ ν™”ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.
β€’
보상-컀버리지 νŠΈλ ˆμ΄λ“œμ˜€ν”„λ₯Ό μ΄ν•΄ν•˜κ³  이λ₯Ό ν™œμš©ν•˜μ—¬ λ‘œκΉ… 정책을 섀계해야 ν•©λ‹ˆλ‹€.
β€’
μ‹€μ œ 운영 ν™˜κ²½μ—μ„œ 이둠적인 졜적 정책을 κ΅¬ν˜„ν•˜κΈ° μ–΄λ €μš΄ 경우, μ‹€μš©μ μΈ 섀계 원칙이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘