λ³Έ λ
Όλ¬Έμ μΈκ° νΌλλ°± κΈ°λ° κ°ννμ΅(RLHF)μμ λ°μνλ 보μ λͺ¨λΈμ μ λ 보μ ν¬κΈ°μ μ μ±
μ΅μ νμ λΆμΌμΉ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄, 보μμ ν¬κΈ°κ° μλ μμλ§μ νμ©νλ μλ‘μ΄ μ μ±
μ΅μ ν λ°©λ²μΈ GOPO(Group Ordinal Policy Optimization)λ₯Ό μ μν©λλ€. GOPOλ μμ½, μ§μ λ°λ₯΄κΈ°, μ±ν
μμ± λ± κ²μ¦ λΆκ°λ₯ν 보μ νκ²½μμ κΈ°μ‘΄ λ°©λ²λ‘ λλΉ λ λμ νλ ¨/κ²μ¦ 보μ κΆ€μ , ν₯μλ LLM νκ° κ²°κ³Ό, κ·Έλ¦¬κ³ λ μ μ νλ ¨ λ¨κ³λ‘ μ μ¬ν νμ§μ μ μ±
λ¬μ±μ 보μ¬μ€λλ€.