μ΄ λ
Όλ¬Έμ κ°ννμ΅μμ ν¬μν 보μ μ νΈλ₯Ό ν¨κ³Όμ μΌλ‘ νμ΅νλ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ μ μλ μ€μ§λ νμ΅ κΈ°λ°μ 보μ μ±ν(reward shaping) λ°©λ²μ μκ°ν©λλ€. μ μλ λ°©λ²μ 0μ΄ μλ 보μ μ νλΏλ§ μλλΌ, λ€μμ 0 보μ μ νμμ κΆ€μ κ³΅κ° ννμ νμ΅νκΈ° μν΄ μ€μ§λ νμ΅ λ° μλ‘μ΄ λ°μ΄ν° μ¦κ° κΈ°λ²μ νμ©ν©λλ€. μ΄λ₯Ό ν΅ν΄ κΈ°μ‘΄ μ§λ νμ΅ κΈ°λ° μ κ·Ό λ°©μλ³΄λ€ λ°μ΄λ 보μ μΆλ‘ μ±λ₯κ³Ό μμ΄μ νΈ μ μ ν₯μμ λ¬μ±νμ΅λλ€.