λ³Έ λ
Όλ¬Έμ LLM μΆλ‘ μ μν λͺ¨λν νΈλ¦¬ νμ νλ μμν¬μΈ LiTSλ₯Ό μ μνλ€. LiTSλ νΈλ¦¬ νμμ Policy, Transition, RewardModelμ μΈ κ°μ§ μ¬μ¬μ© κ°λ₯ν κ΅¬μ± μμλ‘ λΆν΄νμ¬ MCTS, BFSμ κ°μ μκ³ λ¦¬μ¦μ ν΅ν©νλ€. μ΄λ₯Ό ν΅ν΄ λλ©μΈ μ λ¬Έκ°μ μκ³ λ¦¬μ¦ μ°κ΅¬μκ° κ°μμ μ λ¬Έμ±μ νμ©νμ¬ μλ‘μ΄ λλ©μΈ νμ₯ λ° λ§μΆ€ν νμ μκ³ λ¦¬μ¦ κ΅¬νμ μ©μ΄νκ² νλ€. MATH500, Crosswords, MapEval λ°μ΄ν°μ
μ λν μ€ν κ²°κ³Ό, μ μλ κ΅¬μ± μμμ μκ³ λ¦¬μ¦μ΄ μλ‘ λ
립μ μΌλ‘ μλν¨μ μ
μ¦νμ¬ λ²μ©μ μΈ μ¬μ¬μ©μ±μ 보μ¬μ€λ€.