Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Select2Reason: Efficient Instruction-Tuning Data Selection for Long-CoT Reasoning

Created by
  • Haebom

저자

Cehao Yang, Xueyuan Lin, Chengjin Xu, Xuhui Jiang, Xiaojun Wu, Honghao Liu, Hui Xiong, Jian Guo

개요

본 논문은 사전 훈련된 대규모 언어 모델에서 장쇄 사고(long-chain-of-thoughts, long-CoT) 추론 능력을 활성화하는 비용 효율적인 방법을 제시합니다. 강력한 대규모 추론 모델(예: DeepSeek-R1)로 생성된 지시 데이터셋에 대한 지도 학습 미세 조정을 수행하는 방식입니다. 10만 개 이상의 샘플을 포함하는 대규모 지시 데이터셋은 상당한 훈련 오버헤드를 발생시키므로, 본 논문에서는 효율적인 장쇄 사고 지시 선택 프레임워크인 Select2Reason을 제안합니다. Select2Reason은 질문의 난이도를 추정하는 정량화 기법과 추론 추적 길이 기반 휴리스틱을 가중치 방식으로 통합하여 고효율 예시를 우선시합니다. OpenR1-Math-220k 데이터셋을 사용한 실험 결과, Select2Reason으로 선택된 데이터의 10%만으로 미세 조정된 LLM이 전체 데이터 미세 조정 및 오픈소스 기준 모델인 OpenR1-Qwen-7B와 비교하여 경쟁력 있는 성능 또는 우수한 성능을 달성함을 보여줍니다. 또한, 다양한 데이터 크기에서의 확장성, 추론 중 효율성, 그리고 최소한의 비용으로 다른 지시 풀에 대한 적응성을 강조합니다.

시사점, 한계점

시사점:
대규모 지시 데이터셋을 사용한 LLM 미세 조정의 효율성을 크게 향상시키는 새로운 데이터 선택 프레임워크를 제시합니다.
Select2Reason을 통해 소량의 데이터만으로도 전체 데이터를 사용한 미세 조정과 비슷하거나 더 나은 성능을 달성할 수 있음을 보여줍니다.
다양한 데이터 크기 및 다른 지시 풀에 대한 적응성을 통해 확장성과 일반화 성능을 입증합니다.
추론 추적 길이 기반 휴리스틱을 활용하여 장쇄 사고 추론 지시의 질을 평가하는 새로운 방법론을 제시합니다.
한계점:
Select2Reason의 성능은 사용된 정량화 기법과 휴리스틱의 정확성에 의존적일 수 있습니다.
제안된 방법론이 모든 유형의 LLM과 지시 데이터셋에 대해 동일한 효과를 보일지는 추가적인 연구가 필요합니다.
OpenR1-Math-220k 데이터셋에 대한 결과를 바탕으로 일반화 성능을 평가했으므로, 다른 도메인 또는 작업에 대한 일반화 가능성을 더 검증해야 합니다.
👍