λ³Έ μ°κ΅¬λ ν¬μ 보μ νκ²½μμ κ³μΈ΅μ κ°ννμ΅(HRL)μ μ±λ₯μ ν₯μμν€κΈ° μν΄ Hindsight Experience Replay (HER) λ©μ»€λμ¦μ Option-Critic (OC) λ° Multi-updates Option Critic (MOC) νλ μμν¬μ ν΅ν©νλ MOC-HERλ₯Ό μ μν©λλ€. λ λμκ°, κ°μ²΄ μ‘°μ μμ
κ³Ό κ°μ΄ 보μμ΄ κ°μ²΄μ μ΅μ’
μνλΏλ§ μλλΌ μμ΄μ νΈμ μνΈμμ©μλ μμ‘΄νλ 볡μ‘ν μλ리μ€λ₯Ό ν΄κ²°νκΈ° μν΄, κ°μ²΄μ μνμ μμ΄μ νΈμ μ΄νν°(effector) μμΉλ₯Ό λͺ¨λ νμ©νλ λ κ°μ§ κ°μ λͺ©νλ₯Ό μμ±νλ Dual Objectives Hindsight Experience Replay (2HER)λ₯Ό κ°λ°νμ΅λλ€. μ€ν κ²°κ³Ό, μ μλ MOC-2HERλ κΈ°μ‘΄ MOC λ° MOC-HER λλΉ κ°μ²΄ μ‘°μ μμ
μμ μ΅λ 90%μ μ±κ³΅λ₯ μ λ¬μ±νλ©°, ν¬μ 보μ λ° λ€μ€ λͺ©ν μμ
μμ λμΌ λͺ©ν μ¬λ μ΄λΈλ§ μ λ΅μ ν¨κ³Όλ₯Ό μ
μ¦νμ΅λλ€.