haebom
Sign In
Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Aswin RRV, Jacob Dineen, Divij Handa, Mihir Parmar, Ben Zhou, Swaroop Mishra, Chitta Baral
π‘ κ°μ
μ΄ μ°κ΅¬λ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ κ°ννμ΅(RL) ν¨κ³Όλ₯Ό λμ΄κΈ° μν΄ νμ΅ μ€κ° λ¨κ³μμ λ€μν μ체 μμ± λ°μ΄ν°λ₯Ό νμ©νλ λ°©λ²μ μ μν©λλ€. μ‘°μ§ ν΄λ¦¬μμ λ¬Έμ ν΄κ²° μ κ·Όλ²μ κΈ°λ°μΌλ‘ λ€μν μ λ΅ λ³νμ μμ±νκ³ , μ΄λ₯Ό μ΄μ©ν λ―ΈμΈ μ‘°μ (fine-tuning) ν RL νμ΅μ μ§ννμ¬ μ±λ₯ ν₯μμ λͺ©νλ‘ ν©λλ€. μ체 μμ± λ°μ΄ν°λ₯Ό ν΅ν μ€κ° νμ΅μ΄ RLμμμ λ€μ€ μ κ·Ό λ°©μ κ²°ν©μ μ₯λ €νμ¬ μνμ μΆλ‘ , μ½λ μμ±, μμ¬μ μΆλ‘ λ± λ€μν κ³Όμ μμ μΌκ΄λ μ±λ₯ ν₯μμ λ¬μ±νμμ 보μ¬μ€λλ€.
π μμ¬μ λ° νκ³
β’
LLM νμ΅ κ³Όμ μ€ λ€μν μ체 μμ± λ°μ΄ν°λ₯Ό νμ©ν μ€κ° νμ΅μ΄ νμ κ°ννμ΅ μ±λ₯μ ν₯μμν¬ μ μμ΅λλ€.
β’
λ¬Έμ ν΄κ²°μ λν λ€μν μ κ·Ό λ°©μμ νμ΅ν λͺ¨λΈμ 볡μ‘ν μΆλ‘ κ³Όμ μμ λ λμ μ±λ₯μ 보μ λλ€.
β’
μ μλ λ°©λ²λ‘ μ ν¨κ³Όλ₯Ό λ λμ λ²μμ LLM μν€ν μ²μ λ€μν μ νμ μΆλ‘ μμ μΌλ‘ νμ₯νκ³ , λ°μ΄ν° μμ± κ³Όμ μ ν¨μ¨μ±μ μ΅μ ννλ μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage