λ³Έ λ
Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μΆλ‘ λ₯λ ₯μ ν₯μμν€κΈ° μν κ°ννμ΅(RL) κΈ°λ², νΉν RLVR(Reinforcement Learning with Verifiable Rewards)μ λ€μ€ λλ©μΈ μ μ©μ λν΄ νꡬν©λλ€. μ°κ΅¬λ μλ‘ λ€λ₯Έ λλ©μΈμμ νμ΅λ RLVR λͺ¨λΈλ€μ μ΄λ»κ² ν¨κ³Όμ μΌλ‘ κ²°ν©νμ¬ λ€μ€ λλ©μΈ μ λ¬Έκ° μμ€μ λͺ¨λΈμ λ§λ€ μ μλμ§, κΈ°μ‘΄μ 'νΌν©(mixed)' λ°©μκ³Ό 'λΆλ¦¬ ν λ³ν©(separate then merge)' λ°©μμ μ₯λ¨μ μ λΉκ΅ λΆμν©λλ€. μ€ν κ²°κ³Ό, λλ©μΈ κ° μνΈ κ°μμ μ κ³ μΆλ‘ μ€μ¬ λλ©μΈμμλ μλμ§ ν¨κ³Όκ° λνλ¨μ νμΈνμ΅λλ€.