Sign In

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Created by
  • Haebom
Category
Empty

μ €μž

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•œ κ°•ν™”ν•™μŠ΅(RL) 기법, 특히 RLVR(Reinforcement Learning with Verifiable Rewards)의 닀쀑 도메인 μ μš©μ— λŒ€ν•΄ νƒκ΅¬ν•©λ‹ˆλ‹€. μ—°κ΅¬λŠ” μ„œλ‘œ λ‹€λ₯Έ λ„λ©”μΈμ—μ„œ ν•™μŠ΅λœ RLVR λͺ¨λΈλ“€μ„ μ–΄λ–»κ²Œ 효과적으둜 κ²°ν•©ν•˜μ—¬ 닀쀑 도메인 μ „λ¬Έκ°€ μˆ˜μ€€μ˜ λͺ¨λΈμ„ λ§Œλ“€ 수 μžˆλŠ”μ§€, 기쑴의 'ν˜Όν•©(mixed)' 방식과 '뢄리 ν›„ 병합(separate then merge)' λ°©μ‹μ˜ μž₯단점을 비ꡐ λΆ„μ„ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, 도메인 κ°„ μƒν˜Έ 간섭은 적고 μΆ”λ‘  쀑심 λ„λ©”μΈμ—μ„œλŠ” μ‹œλ„ˆμ§€ νš¨κ³Όκ°€ λ‚˜νƒ€λ‚¨μ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ‹œμ‚¬μ  1: μΆ”λ‘  μ€‘μ‹¬μ˜ 닀쀑 도메인 RLVR ν•™μŠ΅μ€ μ„œλ‘œμ—κ²Œ 긍정적인 영ν–₯을 μ£Όμ–΄ μ‹œλ„ˆμ§€ 효과λ₯Ό λ‚Ό 수 μžˆλ‹€.
β€’
μ‹œμ‚¬μ  2: 'ν˜Όν•©' 방식과 '뢄리 ν›„ 병합' 방식 λͺ¨λ‘ 닀쀑 도메인 RLVR에 적용 κ°€λŠ₯ν•˜λ©°, 상황에 따라 μ μ ˆν•œ 방식을 선택할 수 μžˆλ‹€.
β€’
ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제: 닀쀑 도메인 RLVR의 μƒν˜Έμž‘μš© λ©”μ»€λ‹ˆμ¦˜μ— λŒ€ν•œ 보닀 심측적인 뢄석과 ν•¨κ»˜, 더 λ‹€μ–‘ν•œ 도메인 및 규λͺ¨μ˜ LLM에 λŒ€ν•œ ν™•μž₯μ„± 검증이 ν•„μš”ν•˜λ‹€.
πŸ‘