본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 접근법을 제시합니다. 기존의 사고 과정(CoT) 데이터를 활용한 학습 방식은 모든 문제에 대해 주석이 달린 데이터를 확보해야 하는 비용 문제가 있습니다. 본 연구는 제한된 CoT 데이터를 활용하여 LLM이 훈련 분포를 넘어 일반화하고, 특히 구성적으로 일반화하여(atomic reasoning skills을 결합하여 새로운 복잡한 문제 해결), 레이블이 없는 구성적인 작업에 대해서도 성능을 향상시키는 방법을 연구합니다. 구성 가능한 CoT(Composable CoT) 형식으로 atomic task의 CoT 데이터를 수정하여 모델을 학습시키고, 다중 작업 학습 또는 모델 병합과 결합하여 제로샷 성능을 향상시킵니다. 더 나아가, 거부 샘플링 미세 조정(RFT)을 사용하여 소량의 구성 데이터로 추가 학습을 진행합니다. 문자열 조작 및 자연어 능력 조합에 대한 실험 결과, Composable CoT를 사용한 학습 방식이 기존의 다중 작업 학습 및 지속적인 미세 조정 기법보다 우수한 성능을 보임을 확인했습니다.