μμ μ΄ μ€μν μμμμ κ°ννμ΅(RL) μμ΄μ νΈλ μ λ‘ μ½μ€νΈ μμ μ μ½μ λ§μ‘±μν€λ©΄μλ μμ
μ μνν΄μΌ νλ κ³Όμ κ° μμ΅λλ€. κΈ°μ‘΄μ λͺ¨λΈ ν리(model-free) λ°©μμ μμ μλ°μ κ±°μ μ λ‘μ κ°κΉκ² λ¬μ±νμ§ λͺ»νκ±°λ μ§λμΉκ² 보μμ μ΄ λλ κ²½μ°κ° λ§μμ΅λλ€. λ³Έ λ
Όλ¬Έμ λΉμ© κ°μμ 보μ κ°μ μ λμ μΌλ‘ κ· ν λ§μΆλ, μ격ν μ μ½ μ‘°κ±΄μ΄ μλ RLμ μν μμΉμ μΈ μκ³ λ¦¬μ¦μΈ Safety-Biased Trust Region Policy Optimisation (SB-TRPO)μ μκ°ν©λλ€.