λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μΆλ‘ λ₯λ ₯μ ν₯μμν€λ RLVR(Reinforcement Learning with Verifiable Rewards) λ°©μμ λ‘€μμ μμ±κ³Ό μ μ±
μ
λ°μ΄νΈ κ°μ κ³μ° λ° λ©λͺ¨λ¦¬ λΉλμΉ λ¬Έμ λ₯Ό κ²ͺμ΅λλ€. λ³Έ λ
Όλ¬Έμ PODS(Policy Optimization with Down-Sampling)λ₯Ό μ μνμ¬, λ‘€μμ μμ±κ³Ό μ μ±
μ
λ°μ΄νΈλ₯Ό λΆλ¦¬νκ³ μ λ΅μ μΌλ‘ μ νλ λ‘€μμ λΆλΆμ§ν©λ§μ μ¬μ©νμ¬ νμ΅ν¨μΌλ‘μ¨ μ
λ°μ΄νΈ λΉμ©μ ν¬κ² μ€μ΄λ©΄μλ νμ΅ νμ§μ μ μ§ν©λλ€.