κΈ°μ‘΄μλ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μΆλ‘ λ₯λ ₯ ν₯μμ μν΄ μ§λ νμ΅ λ―ΈμΈ μ‘°μ (SFT) ν κ°ν νμ΅(RL)μ μ μ©νλ λ°©μμ΄ μΌλ°μ μ΄μμΌλ, SFT λ¨κ³κ° RLκ³Όλ λ
립μ μΌλ‘ μ΅μ νλμ΄ μ€νλ € RL μ±λ₯ μ νλ₯Ό μΌκΈ°νλ λ¬Έμ κ° μμμ΅λλ€. λ³Έ μ°κ΅¬λ SFT λ°μ΄ν° λΆν¬μ RL μ μ±
νμ΅ λΆν¬ κ°μ λΆμΌμΉλ₯Ό ν΄κ²°νκΈ° μν΄ μ€μλ μνλ§μ νμ©νμ¬ SFT μμ€μ μ¬κ°μ€νλ PEAR(Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting) κΈ°λ²μ μ μν©λλ€. PEARλ ν ν°, λΈλ‘, μνμ€ μμ€μμ μ μ© κ°λ₯νλ©°, SFT λ¨κ³μμλΆν° RLμ κ³ λ €νμ¬ λͺ¨λΈμ λ ν¨κ³Όμ μΌλ‘ μ€λΉμν΅λλ€.