To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Created by

Haebom

저자

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang

💡 개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 강화학습(RL) 기법, 특히 RLVR(Reinforcement Learning with Verifiable Rewards)의 다중 도메인 적용에 대해 탐구합니다. 연구는 서로 다른 도메인에서 학습된 RLVR 모델들을 어떻게 효과적으로 결합하여 다중 도메인 전문가 수준의 모델을 만들 수 있는지, 기존의 '혼합(mixed)' 방식과 '분리 후 병합(separate then merge)' 방식의 장단점을 비교 분석합니다. 실험 결과, 도메인 간 상호 간섭은 적고 추론 중심 도메인에서는 시너지 효과가 나타남을 확인했습니다.

🔑 시사점 및 한계

•

시사점 1: 추론 중심의 다중 도메인 RLVR 학습은 서로에게 긍정적인 영향을 주어 시너지 효과를 낼 수 있다.

•

시사점 2: '혼합' 방식과 '분리 후 병합' 방식 모두 다중 도메인 RLVR에 적용 가능하며, 상황에 따라 적절한 방식을 선택할 수 있다.

•

한계점 또는 향후 과제: 다중 도메인 RLVR의 상호작용 메커니즘에 대한 보다 심층적인 분석과 함께, 더 다양한 도메인 및 규모의 LLM에 대한 확장성 검증이 필요하다.

PDF 보기

Made with Slashpage