λ³Έ λ
Όλ¬Έμ μ΅μ ν λͺ¨λΈλ§ κ³Όμ μ κ³μΈ΅μ νΉμ±κ³Ό μ΄κΈ° μ€λ₯μ μ ν λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ MCTS(Monte Carlo Tree Search)μ ν
μ€νΈ μκ° κ°ννμ΅μ κ²°ν©ν StarOR νλ μμν¬λ₯Ό μ μν©λλ€. StarORμ λͺ¨λΈλ§ κ³Όμ μ 4λ¨κ³λ‘ λΆν΄νκ³ , κ° λ¨κ³μμ LoRA μ΄λν°λ₯Ό GRPO(Generalized Proximal Policy Optimization)λ‘ μ
λ°μ΄νΈνμ¬ κ²μ μκ° νμμ μΈμ€ν΄μ€λ³ μ μ±
κ°μ μΌλ‘ μ νν©λλ€. μ€ν κ²°κ³Ό, StarORμ 4B λͺ¨λΈλ‘λ κΈ°μ‘΄ λ°©λ²λ‘ κ³Ό μ΅μ²¨λ¨ LLMμ λ₯κ°νλ μ΅μ μ±λ₯μ λ¬μ±νμ΅λλ€.