Sign In

Information-theoretic analysis of world models in optimal reward maximizers

Created by
  • Haebom
Category
Empty

μ €μž

Alfred Harwood, Jose Faustino, Alex Altair

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” AIμ—μ„œ 성곡적인 행동이 내뢀적인 세계 ν‘œν˜„μ„ μ–Όλ§ˆλ‚˜ ν•„μš”λ‘œ ν•˜λŠ”μ§€μ— λŒ€ν•œ μ§ˆλ¬Έμ— λ‹΅ν•˜κΈ° μœ„ν•΄, 졜적 정책이 ν™˜κ²½μ— λŒ€ν•΄ μ œκ³΅ν•˜λŠ” μ •λ³΄λŸ‰μ„ μ •λŸ‰ν™”ν•©λ‹ˆλ‹€. $n$개의 μƒνƒœμ™€ $m$개의 행동을 κ°–λŠ” μ œμ–΄ 마λ₯΄μ½”ν”„ κ³Όμ •(CMP)을 κ°€μ •ν•˜κ³ , κ°€λŠ₯ν•œ 전이 동역학 곡간에 λŒ€ν•œ 균일 사전 ν™•λ₯ μ„ λΆ€μ—¬ν•©λ‹ˆλ‹€. λΉ„μƒμˆ˜ 보상 ν•¨μˆ˜μ— λŒ€ν•΄ 졜적인 결정둠적 정책을 κ΄€μ°°ν•˜λ©΄ ν™˜κ²½μ— λŒ€ν•œ μ •ν™•νžˆ $n \log m$ λΉ„νŠΈμ˜ 정보가 전달됨을 증λͺ…ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
졜적 μ •μ±… κ΄€μ°° μ‹œ ν™˜κ²½μ— λŒ€ν•œ μ •λ³΄λŸ‰μ˜ λͺ…ν™•ν•œ 정보 이둠적 ν•˜ν•œμ„ ($n \log m$ λΉ„νŠΈ)을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μœ ν•œ κΈ°κ°„, λ¬΄ν•œ κΈ°κ°„ 할인, μ‹œκ°„ 평균 보상 κ·ΉλŒ€ν™” λ“± λ‹€μ–‘ν•œ 보상 λͺ©ν‘œμ— 걸쳐 이 κ²°κ³Όκ°€ μœ μ§€λ¨μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
졜적 행동을 μœ„ν•œ '암묡적 세계 λͺ¨λΈ'의 ν•„μš”μ„±μ— λŒ€ν•œ 이둠적 κ·Όκ±°λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” 이상적인 정책을 κ°€μ •ν•˜λ©°, μ‹€μ œ ν•™μŠ΅ κ³Όμ •μ—μ„œμ˜ λΆˆν™•μ‹€μ„±μ΄λ‚˜ 근사 정책은 κ³ λ €ν•˜μ§€ μ•Šμ•˜λ‹€λŠ” ν•œκ³„κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘