LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?

작성자

Haebom

카테고리

Empty

저자

Jingyuan Wang, Yankai Chen, Zhonghang Li, Chao Huang

💡 개요

본 연구는 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위해, 오히려 작고 덜 강력한 언어 모델(SLM)을 활용하여 LLM의 고가치 추론 순간을 포착하는 새로운 프레임워크인 LightReasoner를 제안합니다. LightReasoner는 전문가-아마추어 모델 간의 행동 차이를 이용해 핵심 추론 순간을 선별하고, 이를 통해 LLM의 강점을 증폭시키는 감독 학습 예제를 구성합니다. 이 방법은 7개의 수학 벤치마크에서 정확도를 최대 28.1% 향상시키면서도, 시간, 샘플링 문제, 튜닝 토큰 사용량을 획기적으로 줄여 LLM 추론의 효율성을 높입니다.

🔑 시사점 및 한계

•

SLM을 활용하여 LLM의 추론 능력 향상을 위한 감독 신호로 사용할 수 있음을 보여줍니다.

•

기존의 대규모 데이터셋 기반 SFT 방식 대비 자원 효율성(시간, 데이터, 계산량)이 매우 높습니다.

•

실제 정답 라벨 없이도 추론 능력을 효과적으로 향상시킬 수 있습니다.

•

현재는 수학적 추론에 초점을 맞추고 있으며, 다양한 유형의 추론 문제에 대한 일반화 가능성은 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage