Sign In

Learning When Not to Learn: Risk-Sensitive Abstention in Bandits with Unbounded Rewards

Created by
  • Haebom
Category
Empty

μ €μž

Sarah Liaw, Benjamin Plaut

πŸ’‘ κ°œμš”

λ³Έ 논문은 볡ꡬ λΆˆκ°€λŠ₯ν•œ 손상을 μ•ΌκΈ°ν•  수 μžˆλŠ” κ³ μœ„ν—˜ AI μ‘μš© λΆ„μ•Όμ—μ„œ, κΈ°μ‘΄ λ°΄λ”§ μ•Œκ³ λ¦¬μ¦˜μ˜ 곡격적인 탐색이 μœ„ν—˜ν•˜λ‹€λŠ” λ¬Έμ œμ μ„ μ§€μ ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ λ©˜ν† μ˜ 도움 없이도 μ•ˆμ „ν•˜κ²Œ ν•™μŠ΅ν•  수 μžˆλ„λ‘ '기ꢌ' μ˜΅μ…˜μ„ ν¬ν•¨ν•˜λŠ” 두 κ°€μ§€ μ•‘μ…˜μ˜ μ»¨ν…μŠ€νŠΈ λ°΄λ”§ λͺ¨λΈμ„ μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ μ•Œκ³ λ¦¬μ¦˜μ€ 'μ‹ λ’° μ˜μ—­'을 기반으둜 ν•΄λ₯Ό 보μž₯ν•˜μ§€ μ•ŠλŠ” κ²½μš°μ—λ§Œ μ‹€ν–‰ν•˜λ©°, i.i.d. μž…λ ₯ 쑰건 ν•˜μ—μ„œ λΆ€λΆ„ μ„ ν˜•μ μΈ ν›„νšŒ 보μž₯을 톡해 κ³ μœ„ν—˜ ν™˜κ²½μ—μ„œμ˜ μ•ˆμ „ν•œ ν•™μŠ΅ μ—μ΄μ „νŠΈ 배포 κ°€λŠ₯성을 이둠적으둜 μž…μ¦ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κ³ μœ„ν—˜ AI ν™˜κ²½μ—μ„œ κΈ°μ‘΄ λ°΄λ”§ μ•Œκ³ λ¦¬μ¦˜μ˜ 근본적인 ν•œκ³„λ₯Ό λͺ…ν™•νžˆ μ œμ‹œν•˜κ³ , '기ꢌ' μ˜΅μ…˜μ˜ ν•„μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
β€’
'μ‹ λ’° μ˜μ—­' 기반의 μ‹ μ€‘ν•œ 탐색 μ „λž΅μ„ 톡해 이둠적으둜 μ•ˆμ „μ„±μ„ 보μž₯ν•˜λ©΄μ„œλ„ μ„±λŠ₯ μ €ν•˜λ₯Ό μ΅œμ†Œν™”ν•˜λŠ” μ•Œκ³ λ¦¬μ¦˜μ„ μ œμ•ˆν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ μ•Œκ³ λ¦¬μ¦˜μ€ i.i.d. μž…λ ₯μ΄λΌλŠ” κ°€μ • ν•˜μ—μ„œ λΆ„μ„λ˜μ—ˆμœΌλ©°, μ‹€μ œ λ³΅μž‘ν•˜κ³  동적인 ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘