haebom
Sign In
Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels
Created by
Haebom
Category
Empty
μ μ
Zhepeng Cen, Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Jielin Qiu, Ding Zhao, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
π‘ κ°μ
λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ λ°©λν ν μ€νΈ μ½νΌμ€λ₯Ό ν΅ν λͺ¨λ°© νμ΅μΌλ‘ μ±κ³΅μ κ±°λμμ§λ§, νλ ¨-μμ± κ°κ·Ήκ³Ό κ²¬κ³ ν μΆλ‘ λ₯λ ₯μ νκ³λ₯Ό μΌκΈ°ν©λλ€. κ°ννμ΅(RL)μ μ΄ κ°κ·Ήμ λ©μΈ μ μλ λ°μ΄ν° ν¨μ¨μ μΈ ν΄κ²°μ± μ μ μνμ§λ§, κΈ°μ‘΄ RL λ°μ΄ν°μ μ΄ μΉμ€μΌμΌ μ¬μ νμ΅ μ½νΌμ€μ λΉν΄ ν¨μ¬ μκ³ λ€μμ±μ΄ λΆμ‘±νλ€λ λ°μ΄ν° λ³λͺ© νμμΌλ‘ μΈν΄ μ μ©μ΄ μ νμ μ΄μμ΅λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ λ³Έ μ°κ΅¬λ λκ·λͺ¨ μ¬μ νμ΅ λ¬Έμλ₯Ό 체κ³μ μΌλ‘ λ³ννμ¬ RL νμ΅μ μ¬μ©ν μ μλ μλ°±λ§ κ°μ λ€μνκ³ κ²μ¦ κ°λ₯ν μ§λ¬Έ-λ΅λ³ μμ μμ±νλ νμ₯ κ°λ₯ν λ°μ΄ν° μμ§μΈ Webscale-RL νμ΄νλΌμΈμ μ μν©λλ€.
π μμ¬μ λ° νκ³
β’
Webscale-RL νμ΄νλΌμΈμ λκ·λͺ¨ ν μ€νΈ μ½νΌμ€λ₯Ό κ°ννμ΅μ νμ© κ°λ₯ν λ°μ΄ν°λ‘ μλ λ³ννμ¬ RL λ°μ΄ν°μ ꡬμΆμ λ³λͺ© νμμ ν΄μν μ μμ΅λλ€.
β’
Webscale-RL λ°μ΄ν°μ μΌλ‘ νμ΅ν λͺ¨λΈμ κΈ°μ‘΄ λ°©μλ³΄λ€ μ±λ₯μ΄ μ°μνλ©°, νΉν 100λ°° μ μ ν ν°μΌλ‘λ μ μ¬ν μ±λ₯μ λ¬μ±νμ¬ RL νμ΅μ ν¨μ¨μ±μ ν¬κ² λμ λλ€.
β’
λ³Έ μ°κ΅¬λ κ°ννμ΅μ μ¬μ νμ΅ μμ€κΉμ§ νμ₯νμ¬ λ κ°λ ₯νκ³ ν¨μ¨μ μΈ μΈμ΄ λͺ¨λΈμ κ°λ°ν μ μλ μ€μ§μ μΈ κ²½λ‘λ₯Ό μ μν©λλ€.
β’
ν₯ν κ³Όμ λ μμ±λ λ°μ΄ν°μ νμ§κ³Ό λ€μμ±μ λμ± κ°μ νκ³ , λ€λ₯Έ μ νμ LLM μμ μ μ μ©νλ κ²μ λλ€.
PDF 보기
Made with Slashpage