haebom
Sign In
Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning
Created by
Haebom
Category
Empty
μ μ
Xin Guan, Zijian Li, Shen Huang, Pengjun Xie, Jingren Zhou, Jiuxin Cao
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κ°ννμ΅(RL)μ΄ μ₯λ¬Έ λ§₯λ½ μΆλ‘ μμ λ°μνλ ν¬μν κ²°κ³Ό 보μ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ μ¦κ±° κΈ°λ° μ μ± μ΅μ ν(EAPO)λ₯Ό μ μν©λλ€. EAPOλ νΈλ¦¬ ꡬ쑰 μ¦κ±° μνλ§μ ν΅ν΄ μ₯λ¬Έ λ§₯λ½ μΆλ‘ μμ μ νν μ¦κ±° μΆμΆμ΄ ν΅μ¬ λ³λͺ©μμ λ°νκ³ , κ·Έλ£Ή μλ μ¦κ±° 보μ(Group-Relative Evidence Reward)μ ν΅ν΄ μ¦κ±° νμ§μ κ°μ νλ λ°μ§λ κ³Όμ κ°λ μ μ 곡ν©λλ€. λν, μ μν 보μ-μ μ± κ³΅λ μ§ν(Adaptive Reward-Policy Co-Evolution) λ©μ»€λμ¦μ ν΅ν΄ νλ ¨ μ λ°μ κ±Έμ³ λ³΄μ λͺ¨λΈμ μ§μμ μΌλ‘ κ°μ νμ¬ μ νν κ°λ μ μ μ§ν©λλ€.
π μμ¬μ λ° νκ³
β’
μ₯λ¬Έ λ§₯λ½ μΆλ‘ μμ 'λ°λ μ°ΎκΈ°'μ κ°μ μ¦κ±° κ²μμ μ€μμ±μ κ°μ‘°νκ³ , μ΄λ₯Ό κ°λ νκΈ° μν ꡬ체μ μΈ λ³΄μ μ€κ³ λ°©λ²λ‘ μ μ μν©λλ€.
β’
보μ λͺ¨λΈκ³Ό μ μ± μ λ°λ³΅μ μΌλ‘ κ°μ νλ 곡λ μ§ν λ©μ»€λμ¦μ ν΅ν΄ RL νλ ¨μ ν¨μ¨μ±κ³Ό μ νμ±μ λμ΄λ μλ‘μ΄ μ κ·Ό λ°©μμ μ μν©λλ€.
β’
μ μλ EAPO λ°©λ²λ‘ μ΄ λ€μν λ²€μΉλ§ν¬μμ μ΅μ κΈ°μ (SOTA) λλΉ μ₯λ¬Έ λ§₯λ½ μΆλ‘ μ±λ₯μ μ μλ―Ένκ² ν₯μμμΌ°μμ μ μ¦ν©λλ€.
β’
보μ λͺ¨λΈμ νμ΅ μμ μ± λ° μΈλΆ μ¦κ±° μμ€μ λν μΌλ°ν μ±λ₯μ λν μΆκ°μ μΈ μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage