κΈ°μ‘΄ κ°ννμ΅(RL) κΈ°λ° λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM) μμ΄μ νΈ νμ΅ λ°©μμ λ€μ€ ν΄(multi-turn) νκ²½μμ νμ΅ μμ μ±κ³Ό μ΅μ μ μ±
μλ ΄ 보μ₯μ΄ λΆμ‘±ν λ¬Έμ λ₯Ό μκ³ μμμ΅λλ€. λ³Έ λ
Όλ¬Έμ μ΄λ¬ν λ¬Έμ μ μ ν΄κ²°νκΈ° μν΄ μνμ€ μμ€μμ μμ°¨μ μ μ±
μ
λ°μ΄νΈλ₯Ό μννλ μλ‘μ΄ κ°ννμ΅ λ°©λ²λ‘ μΈ SeeUPOλ₯Ό μ μν©λλ€. SeeUPOλ λ€μ€ ν΄ μνΈμμ©μ μμ°¨μ μΌλ‘ μ€νλλ λ€μ€ μμ΄μ νΈ λ°΄λ§ λ¬Έμ λ‘ λͺ¨λΈλ§νκ³ , μμμΌλ‘ μ μ±
μ μ
λ°μ΄νΈνμ¬ μ μ μ΅μ ν΄λ‘μ μλ ΄μ 보μ₯νλ©°, μ€ν κ²°κ³Ό κΈ°μ‘΄ μκ³ λ¦¬μ¦ λλΉ μλΉν μ±λ₯ ν₯μκ³Ό μμ μ±μ μ
μ¦νμ΅λλ€.