Sign In

Recursive Entropic Risk Optimization in Discounted MDPs: Sample Complexity Bounds with a Generative Model

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Oliver Mortensen, Mohammad Sadegh Talebi

πŸ’‘ κ°œμš”

λ³Έ 논문은 생성 λͺ¨λΈμ΄ μ£Όμ–΄μ§„ μœ ν•œ 할인 MDP ν™˜κ²½μ—μ„œ μž¬κ·€μ  μ—”νŠΈλ‘œν”Ό μœ„ν—˜ μΈ‘μ •(ERM)을 λ”°λ₯΄λŠ” μœ„ν—˜ 민감 κ°•ν™”ν•™μŠ΅ 문제λ₯Ό λ‹€λ£Ήλ‹ˆλ‹€. μœ„ν—˜ λ§€κ°œλ³€μˆ˜ $\beta$λ₯Ό 톡해 μ—μ΄μ „νŠΈμ˜ μœ„ν—˜ μ„ ν˜Έλ„λ₯Ό μ‘°μ ˆν•˜λ©°, 특히 ERM에 λŒ€ν•œ κ°€μΉ˜ ν•™μŠ΅ 및 μ •μ±… ν•™μŠ΅μ˜ ν‘œλ³Έ λ³΅μž‘λ„μ— λŒ€ν•œ PAC(Probably Approximately Correct) μœ ν˜•μ˜ ν•˜ν•œ 및 μƒν•œμ„ μ œμ‹œν•©λ‹ˆλ‹€. μ œμ•ˆλœ λͺ¨λΈ 기반 μ•Œκ³ λ¦¬μ¦˜μΈ MB-RS-QVIλŠ” μœ„ν—˜ νšŒν”Ό 및 μœ„ν—˜ 좔ꡬ μ‹œλ‚˜λ¦¬μ˜€ λͺ¨λ‘μ—μ„œ μ—„κ²©ν•œ ν‘œλ³Έ λ³΅μž‘λ„ 보μž₯을 μ œκ³΅ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μž¬κ·€μ  μ—”νŠΈλ‘œν”Ό μœ„ν—˜ μΈ‘μ •(ERM)을 μ‚¬μš©ν•˜λŠ” μœ„ν—˜ 민감 κ°•ν™”ν•™μŠ΅μ—μ„œ 졜초둜 μ—„κ²©ν•œ ν‘œλ³Έ λ³΅μž‘λ„ 보μž₯을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μœ„ν—˜ νšŒν”Ό 및 μœ„ν—˜ 좔ꡬ μ‹œλ‚˜λ¦¬μ˜€ λͺ¨λ‘μ—μ„œ ν‘œλ³Έ λ³΅μž‘λ„κ°€ μœ„ν—˜ λ§€κ°œλ³€μˆ˜ $|\beta|$와 ν• μΈμœ¨ $(1-\gamma)$에 따라 μ§€μˆ˜μ μœΌλ‘œ μ¦κ°€ν•˜λ©°, μ΄λŠ” μ΅œμ•…μ˜ 경우 ν”Όν•  수 μ—†μŒμ„ λ³΄μž…λ‹ˆλ‹€.
β€’
μ œμ‹œλœ ν‘œλ³Έ λ³΅μž‘λ„ ν•˜ν•œ 및 μƒν•œμ€ μƒνƒœ 및 행동 κ³΅κ°„μ˜ 크기($S, A$)에 λŒ€ν•΄ νƒ€μ΄νŠΈν•©λ‹ˆλ‹€.
β€’
μœ„ν—˜ λ§€κ°œλ³€μˆ˜ $|\beta|/(1-\gamma)$의 μ§€μˆ˜μ  μ˜μ‘΄μ„±μ€ 계산 λΉ„μš© μ¦κ°€λ‘œ μ΄μ–΄μ§ˆ 수 있으며, μ΄λŠ” μ‹€μ œ 적용 μ‹œ κ³ λ €ν•΄μ•Ό ν•  ν•œκ³„μž…λ‹ˆλ‹€.
πŸ‘