Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

Created by
  • Haebom
Category
Empty

저자

Sen Xu, Yi Zhou, Wei Wang, Jixin Min, Zhibin Yin, Yingwei Dai, Shixi Liu, Lianyu Pang, Yirong Chen, Junlin Zhang

개요

VibeThinker-1.5B는 Spectrum-to-Signal Principle (SSP)을 통해 개발된 1.5B 파라미터의 밀집 모델로, 모델 크기를 늘리는 기존 접근 방식에 도전합니다. Two-Stage Diversity-Exploring Distillation (SFT)와 MaxEnt-Guided Policy Optimization (RL)을 사용하여, 단 $7,800의 훈련 비용으로 Magistral Medium 및 Claude Opus 4와 같은 폐쇄형 모델보다 우수한 추론 능력을 보여줍니다. 또한, GPT OSS-20B Medium과 동등한 성능을 보이며, 400배 큰 DeepSeek R1보다 AIME24, AIME25, HMMT25 수학 벤치마크에서 뛰어난 성적을 기록합니다. LiveCodeBench V6에서도 Magistral Medium을 능가하는 성능을 보였습니다.

시사점, 한계점

시사점:
소형 모델이 대형 모델과 동등한 수준의 추론 능력을 달성할 수 있음을 입증하여, 훈련 및 추론 비용을 대폭 절감 가능.
고급 AI 연구의 민주화에 기여.
Spectrum-to-Signal Principle (SSP)의 효과를 입증.
한계점:
논문에 구체적인 한계점 언급은 없음.
👍