λ³Έ λ
Όλ¬Έμ λν μΆλ‘ λͺ¨λΈμ μΆλ‘ λ₯λ ₯μ μν μΈμ΄ λͺ¨λΈλ‘ μ΄μ νλ λ° μ¬μ©λλ μΆλ‘ μ¦λ₯(reasoning distillation) κ³Όμ μμ λ°μν μ μλ λ°μ΄ν° μ€μΌ λ¬Έμ λ₯Ό ν΄κ²°ν©λλ€. μ μλ λ°©λ²λ‘ μΈ ν ν° νλ₯ νΈμ°¨(Token Probability Deviation, TPD)λ λͺ¨λΈμ΄ μμ±νλ μΆλ ₯ ν ν°μ νλ₯ ν¨ν΄μ λΆμνμ¬, μ§λ¬Έμ΄ μ¦λ₯ λ°μ΄ν°μ ν¬ν¨λμλμ§ μ¬λΆλ₯Ό νμ§ν©λλ€. μ΄λ₯Ό ν΅ν΄ κΈ°μ‘΄ λ°©λ²μ λΉν΄ νμ§ μ±λ₯μ μ΅λ 31% ν₯μμν€λ©° ν¨κ³Όμ±μ μ
μ¦νμ΅λλ€.