본 논문은 사전 훈련된 대규모 언어 모델에서 장쇄 사고(long-chain-of-thoughts, long-CoT) 추론 능력을 활성화하는 비용 효율적인 방법을 제시합니다. 강력한 대규모 추론 모델(예: DeepSeek-R1)로 생성된 지시 데이터셋에 대한 지도 학습 미세 조정을 수행하는 방식입니다. 10만 개 이상의 샘플을 포함하는 대규모 지시 데이터셋은 상당한 훈련 오버헤드를 발생시키므로, 본 논문에서는 효율적인 장쇄 사고 지시 선택 프레임워크인 Select2Reason을 제안합니다. Select2Reason은 질문의 난이도를 추정하는 정량화 기법과 추론 추적 길이 기반 휴리스틱을 가중치 방식으로 통합하여 고효율 예시를 우선시합니다. OpenR1-Math-220k 데이터셋을 사용한 실험 결과, Select2Reason으로 선택된 데이터의 10%만으로 미세 조정된 LLM이 전체 데이터 미세 조정 및 오픈소스 기준 모델인 OpenR1-Qwen-7B와 비교하여 경쟁력 있는 성능 또는 우수한 성능을 달성함을 보여줍니다. 또한, 다양한 데이터 크기에서의 확장성, 추론 중 효율성, 그리고 최소한의 비용으로 다른 지시 풀에 대한 적응성을 강조합니다.