본 논문은 장기 사고 과정(long chain-of-thought, CoT) 능력을 가진 대규모 언어 모델(LLM)을 도메인 특화 LLM과 효율적으로 통합하는 새로운 방법인 RCP-Merging을 제시합니다. 기존의 모델 병합 방법들이 추론 능력 저하 및 출력 붕괴 문제를 겪는 것에 반해, RCP-Merging은 추론 모델의 가중치를 기본 prior로 간주하고, 추론 능력 지표를 활용하여 장기 CoT 능력을 유지하면서 도메인 특화 가중치를 선택적으로 병합합니다. Qwen2.5, Llama3.1 모델을 바탕으로 생물 의학 및 금융 분야에서 실험한 결과, 기존 최고 성능 방법 대비 도메인 과제 성능을 9.5%와 9.2% 향상시키면서 원래의 장기 CoT 추론 능력을 유지하는 것을 확인했습니다.