λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ λ¨μΌ ν΄μμλ λ°μ΄λ μΆλ‘ λ₯λ ₯μ 보μ΄μ§λ§, μ λ³΄κ° μ μ§μ μΌλ‘ 곡κ°λκ±°λ μ
λ°μ΄νΈλλ λ€μ€ ν΄ μνΈμμ©μμλ μ±λ₯μ΄ ν¬κ² μ νλλ λ¬Έμ λ₯Ό κ²ͺμ΅λλ€. μ΄λ λͺ¨λΈμ΄ μ΄μ μΆλ‘ κ³Όμ μ κ³ μνλ©° μλ‘μ΄ μ 보λ₯Ό 무μνλ 'λ§₯λ½μ κ΄μ±' νμ λλ¬Έμ
λλ€. λ³Έ λ
Όλ¬Έμ μ΄λ¬ν λ§₯λ½μ κ΄μ±μ 극볡νκΈ° μν΄ λ¨μΌ ν΄μμμ μ°μν μΆλ‘ λ₯λ ₯μ μμ μ μΈ κΈ°μ€μΌλ‘ νμ©νλ κ°ννμ΅ κΈ°λ° νλ ¨ λ°©μμΈ RLSTA(Reinforcement Learning with Single-Turn Anchors)λ₯Ό μ μν©λλ€.