λ³Έ λ
Όλ¬Έμ κ°ννμ΅(RL)μ νμ΅ μλλ₯Ό λμ΄λ 보μ μ±ν(reward shaping) κΈ°λ²μμ λ°μνλ λ¬Έμ μ μ ν΄κ²°νκΈ° μν΄, μ μ¬μ μΌλ‘ κ΄μ°°λμ§ μμ νΌλ λ³μ(confounding variables)μ μ€μΌλ μ€νλΌμΈ λ°μ΄ν°μ
μΌλ‘λΆν° μ°μ μ μ΄ λ¬Έμ μ λν 보μ μ±ν ν¨μλ₯Ό μλμΌλ‘ νμ΅νλ λ°©λ²μ μ μν©λλ€. μ μνλ λ°©λ²μ μΈκ³Όμ λ²¨λ§ λ°©μ μ(causal Bellman equation)μ κΈ°λ°μΌλ‘ μ΅μ μν κ°μΉ(optimal state values)μ λν μνμ (tight upper bound)μ νμ΅νκ³ , μ΄λ₯Ό μ μ¬ κΈ°λ° λ³΄μ μ±ν(Potential-Based Reward Shaping, PBRS) νλ μμν¬μ μ μ¬κ°(potentials)μΌλ‘ νμ©ν©λλ€. μ€ν κ²°κ³Ό, μ μλ 보μ μ±ν μκ³ λ¦¬μ¦μ Soft-Actor-Critic(SAC)κ³Ό ν¨κ» λ€μν μ°μ μ μ΄ λ²€μΉλ§ν¬μμ μ°μν μ±λ₯μ 보μ¬μ£Όλ©°, κ΄μ°°λμ§ μμ νΌλ λ³μ νμμλ κ°λ ₯ν μ±λ₯ 보μ¦μ μ 곡ν©λλ€.