κΈ°μ‘΄ λ₯ κ°ννμ΅ μκ³ λ¦¬μ¦μ νμ΅ μμ νλ₯Ό μν΄ μ§μ°λ νκ² λ€νΈμν¬λ₯Ό μ¬μ©νμ§λ§, μ΄λ μ
λ°μ΄νΈ μ§μ°μΌλ‘ μΈν νμ΅ μλ μ νλΌλ μμ μ±-μ΅μ μ± νΈλ μ΄λμ€νλ₯Ό μΌκΈ°ν©λλ€. λ³Έ λ
Όλ¬Έμ νκ² λ€νΈμν¬μ μ¨λΌμΈ λ€νΈμν¬μ μΆμ μΉκ° λμ μνμμ λ°μνλ μ μ΄λ₯Ό κ°μ‘°νλ Target-Aligned Reinforcement Learning (TARL)μ μ μν©λλ€. TARLμ μ΄λ¬ν μ μ λ ¬λ νκ²μ μ
λ°μ΄νΈλ₯Ό μ§μ€ν¨μΌλ‘μ¨, μ€λλ νκ² μΆμ μΉμ λΆμ μ μΈ μν₯μ μννλ©΄μ νκ² λ€νΈμν¬μ μμ ν μ΄μ μ μ μ§ν©λλ€.