Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B
Created by
Haebom
Category
Empty
저자
Sen Xu, Yi Zhou, Wei Wang, Jixin Min, Zhibin Yin, Yingwei Dai, Shixi Liu, Lianyu Pang, Yirong Chen, Junlin Zhang
개요
VibeThinker-1.5B는 Spectrum-to-Signal Principle (SSP)을 통해 개발된 1.5B 파라미터의 밀집 모델로, 모델 크기를 늘리는 기존 접근 방식에 도전합니다. Two-Stage Diversity-Exploring Distillation (SFT)와 MaxEnt-Guided Policy Optimization (RL)을 사용하여, 단 $7,800의 훈련 비용으로 Magistral Medium 및 Claude Opus 4와 같은 폐쇄형 모델보다 우수한 추론 능력을 보여줍니다. 또한, GPT OSS-20B Medium과 동등한 성능을 보이며, 400배 큰 DeepSeek R1보다 AIME24, AIME25, HMMT25 수학 벤치마크에서 뛰어난 성적을 기록합니다. LiveCodeBench V6에서도 Magistral Medium을 능가하는 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
소형 모델이 대형 모델과 동등한 수준의 추론 능력을 달성할 수 있음을 입증하여, 훈련 및 추론 비용을 대폭 절감 가능.