Sign In

Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning

Created by
  • Haebom
Category
Empty

μ €μž

Xin Guan, Zijian Li, Shen Huang, Pengjun Xie, Jingren Zhou, Jiuxin Cao

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅(RL)이 μž₯λ¬Έ λ§₯락 μΆ”λ‘ μ—μ„œ λ°œμƒν•˜λŠ” ν¬μ†Œν•œ κ²°κ³Ό 보상 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 증거 기반 μ •μ±… μ΅œμ ν™”(EAPO)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. EAPOλŠ” 트리 ꡬ쑰 증거 μƒ˜ν”Œλ§μ„ 톡해 μž₯λ¬Έ λ§₯락 μΆ”λ‘ μ—μ„œ μ •ν™•ν•œ 증거 μΆ”μΆœμ΄ 핡심 병λͺ©μž„을 밝히고, κ·Έλ£Ή μƒλŒ€ 증거 보상(Group-Relative Evidence Reward)을 톡해 증거 ν’ˆμ§ˆμ„ κ°œμ„ ν•˜λŠ” λ°€μ§‘λœ κ³Όμ • 감독을 μ œκ³΅ν•©λ‹ˆλ‹€. λ˜ν•œ, μ μ‘ν˜• 보상-μ •μ±… 곡동 μ§„ν™”(Adaptive Reward-Policy Co-Evolution) λ©”μ»€λ‹ˆμ¦˜μ„ 톡해 ν›ˆλ ¨ μ „λ°˜μ— 걸쳐 보상 λͺ¨λΈμ„ μ§€μ†μ μœΌλ‘œ κ°œμ„ ν•˜μ—¬ μ •ν™•ν•œ 감독을 μœ μ§€ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μž₯λ¬Έ λ§₯락 μΆ”λ‘ μ—μ„œ 'λ°”λŠ˜ μ°ΎκΈ°'와 같은 증거 κ²€μƒ‰μ˜ μ€‘μš”μ„±μ„ κ°•μ‘°ν•˜κ³ , 이λ₯Ό κ°λ…ν•˜κΈ° μœ„ν•œ ꡬ체적인 보상 섀계 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
보상 λͺ¨λΈκ³Ό 정책을 반볡적으둜 κ°œμ„ ν•˜λŠ” 곡동 μ§„ν™” λ©”μ»€λ‹ˆμ¦˜μ„ 톡해 RL ν›ˆλ ¨μ˜ νš¨μœ¨μ„±κ³Ό 정확성을 λ†’μ΄λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ EAPO 방법둠이 λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ μ΅œμ‹  기술(SOTA) λŒ€λΉ„ μž₯λ¬Έ λ§₯락 μΆ”λ‘  μ„±λŠ₯을 μœ μ˜λ―Έν•˜κ²Œ ν–₯μƒμ‹œμΌ°μŒμ„ μž…μ¦ν•©λ‹ˆλ‹€.
β€’
보상 λͺ¨λΈμ˜ ν•™μŠ΅ μ•ˆμ •μ„± 및 μ™ΈλΆ€ 증거 μ†ŒμŠ€μ— λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘