λ³Έ λ
Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM) νμ²λ¦¬ κ³Όμ μμ μ€μν μν μ νλ 보μ λͺ¨λΈ(Reward Model, RM)μ μ¨κ²¨μ§ νΈν₯μ μλμΌλ‘ νμ§νλ μλ‘μ΄ μ°κ΅¬ λ¬Έμ λ₯Ό μ κΈ°ν©λλ€. μ μλ λ°©λ²λ‘ μ LLMμ νμ©νμ¬ λ°λ³΅μ μΌλ‘ ν보 νΈν₯μ μμ±νκ³ κ°μ νλ λ°©μμΌλ‘, κΈ°μ‘΄μ μλ €μ§ νΈν₯λΏλ§ μλλΌ μλ΅ κΈΈμ΄, νμ, νκ°, μ첨 λ±κ³Ό κ°μ λ°λμ§νμ§ μμ νΉμ±μ 보μ λͺ¨λΈμ΄ μλͺ» 보μνλ κ²½μ°λ₯Ό νμ§ν©λλ€. μ€νμ ν΅ν΄ Skywork-V2-8Bμ κ°μ μ£Όμ 보μ λͺ¨λΈμμ μ€λ³΅ 곡백μ΄λ νκ° μ½ν
μΈ λ₯Ό κ°μ§ μλ΅μ μ νΈνλ νΈν₯μ λ°κ²¬νμΌλ©°, μ΄λ μλνλ ν΄μ κ°λ₯μ± μ°κ΅¬μ κΈ°μ¬ν μ μμ΅λλ€.