본 논문은 사전 훈련된 거대 언어 모델(LLM)에서 장쇄 사고(long-chain-of-thoughts, long-CoT) 추론 능력을 활성화하는 비용 효율적인 방법을 제시합니다. 강력한 대규모 추론 모델(예: DeepSeek-R1)을 사용하여 생성된 지시 데이터셋에 대한 지도 학습 미세 조정을 통해 강화 학습에 대한 대안을 제공합니다. 10만 개 이상의 샘플을 포함하는 대규모 지시 데이터셋은 상당한 훈련 오버헤드를 발생시키기 때문에, 본 논문에서는 효율적인 장쇄 사고 지시 선택 프레임워크인 Select2Reason을 제안합니다. Select2Reason은 질문의 난이도를 추정하는 정량화 기준과 추론 추적 길이 기반 휴리스틱을 가중치 방식으로 통합하여 고효율 예제를 우선적으로 선택합니다. OpenR1-Math-220k 데이터셋에서 Select2Reason으로 선택된 데이터의 10%만으로 미세 조정된 LLM이 전체 데이터를 사용한 미세 조정 및 오픈소스 기준 모델인 OpenR1-Qwen-7B와 비교하여 경쟁력 있는 성능 또는 우수한 성능을 달성함을 실험적으로 보여줍니다. 또한 다양한 데이터 크기에서의 확장성, 추론 중 효율성, 최소 비용으로 다른 지시 풀에 대한 적응성을 강조합니다.
시사점, 한계점
•
시사점:
◦
대규모 지시 데이터셋을 사용하는 LLM의 장쇄 사고 추론 능력 향상을 위한 효율적인 데이터 선택 프레임워크를 제시.
◦
Select2Reason을 통해 소량의 데이터만으로도 전체 데이터를 사용한 미세 조정과 유사하거나 더 나은 성능을 달성.
◦
다양한 데이터 크기 및 다른 지시 풀에 대한 확장성 및 적응성을 보여줌.
◦
추론 과정의 효율성 향상.
•
한계점:
◦
Select2Reason의 성능은 사용된 정량화 기준 및 휴리스틱에 의존적이며, 다른 데이터셋이나 LLM에 대한 일반화 성능은 추가적인 연구가 필요.
◦
현재는 수학 문제 해결에 초점을 맞추고 있으며, 다른 유형의 추론 과제에 대한 적용 가능성은 추가 검증 필요.