haebom
Sign In
Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji
π‘ κ°μ
λ³Έ μ°κ΅¬λ λκ·λͺ¨ μΈμ΄ λͺ¨λΈμ κ°ννμ΅ κΈ°λ° μΆλ‘ λ₯λ ₯ ν₯μ μ λ°μνλ λμ κ³μ° λΉμ© λ¬Έμ λ₯Ό ν΄κ²°νκ³ μ ν©λλ€. μ΄λ₯Ό μν΄, λ Όλ¬Έμ 곡μ λ μ΅μ ν μ΄λ ₯μ κΈ°λ°μΌλ‘ κ²½λ μμ± λͺ¨λΈμ νμ΅μμΌ ν둬ννΈ λμ΄λλ₯Ό μΆλ‘ νλ μΌλ°ν κ°λ₯ν μμΈ‘ ν둬ννΈ μ ν(GPS) κΈ°λ²μ μ μν©λλ€. GPSλ μ€κ° λμ΄λ μ°μ μμνμ μ΄λ ₯ κΈ°λ° λ€μμ± ν보λ₯Ό ν΅ν΄ ν¨μ¨μ μΈ ν둬ννΈ λ°°μΉ μ νμ μννλ©°, μ€ν κ²°κ³Ό νμ΅ ν¨μ¨μ±, μ΅μ’ μ±λ₯, ν μ€νΈ μκ° ν¨μ¨μ± μΈ‘λ©΄μμ μ°μν μ±λ₯μ 보μ λλ€.
π μμ¬μ λ° νκ³
β’
λκ·λͺ¨ μΈμ΄ λͺ¨λΈμ κ°ννμ΅ νλ ¨ ν¨μ¨μ±μ νκΈ°μ μΌλ‘ κ°μ ν μ μλ μΌλ°ν κ°λ₯ν μμΈ‘ ν둬ννΈ μ ν κΈ°λ²μ μ μνμ΅λλ€.
β’
ν둬ννΈλ³ λͺ¨λΈ κ΅¬μΆ μμ΄λ μΌλ°ν μ±λ₯μ ν보νμ¬, λ€μν μΆλ‘ λ²€μΉλ§ν¬μμ κΈ°μ‘΄ κΈ°λ² λλΉ λ°μ΄λ μ±κ³Όλ₯Ό μ μ¦νμ΅λλ€.
β’
μ μλ GPS κΈ°λ²μ μΌλ°ν λ₯λ ₯μ΄ μ€μ λ€μν λλ©μΈκ³Ό μμ μ μΌλ§λ ν¨κ³Όμ μΌλ‘ μ μ©λ μ μλμ§ μΆκ°μ μΈ κ²μ¦μ΄ νμν©λλ€.
PDF 보기
Made with Slashpage