haebom
Sign In
Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Yingyue Li, Wutong Xu, Lizhou Cai, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μΆλ‘ λ₯λ ₯ ν₯μμ μν κ°ννμ΅ κΈ°λ²μΈ RLVRμμ κΈ°μ‘΄μ κ·Έλ£Ή κΈ°λ° μ μ± κ²½μ¬λ²μ΄ μ묡μ μΌλ‘ μ μνλ λͺ©ν λΆν¬λ₯Ό λͺ νν νκ³ , μ΄λ₯Ό λͺ μμ μΌλ‘ ν¬μνλ Listwise Policy Optimization (LPO)μ μ μν©λλ€. LPOλ μλ΅ μ¬νλ μ€ μμμ κ·Όμ¬μ μΈ λͺ©ν λΆν¬ ν¬μμ μ νν λ°μ° μ΅μνλ‘ λ체νμ¬ νλ ¨ μ±λ₯μ ν₯μμν€κ³ μμ μ±κ³Ό λ€μμ±μ 보쑴ν©λλ€.
π μμ¬μ λ° νκ³
β’
κΈ°μ‘΄ κ·Έλ£Ή κΈ°λ° RLVR λ°©λ²λ‘ μ κΈ°ννμ ꡬ쑰λ₯Ό κ·λͺ νκ³ , μ΄λ₯Ό λͺ μμ μΈ λͺ©ν λΆν¬ ν¬μ νλ μμν¬λ‘ νμ₯νμ΅λλ€.
β’
μ μλ LPOλ νλ ¨ μ±λ₯μ λ¨μ‘°μ κ°μ , μμ μ± λ° μλ΅ λ€μμ± λ³΄μ‘΄μ΄λΌλ μ₯μ μ μ 곡ν©λλ€.
β’
λ°μ° μ νμ μ μ°μ±μ λ€μν ꡬ쑰μ μμ±μ κ°μ§ ν¬μμ κ°λ₯νκ² ν©λλ€.
β’
ν₯ν μ°κ΅¬μμλ LPOμ μ΄λ‘ μ κ·Όκ±°λ₯Ό λμ± κ°ννκ³ , λ€μν LLM μν€ν μ² λ° λ³΅μ‘ν μΆλ‘ μμ μ λν μ μ© λ²μλ₯Ό νμ₯ν νμκ° μμ΅λλ€.
PDF 보기
Made with Slashpage