Sign In

s1: Simple test-time scaling

Created by
  • Haebom
Category
Empty

저자

Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candes, Tatsunori Hashimoto

개요

본 논문은 테스트 시간 스케일링을 통해 언어 모델의 성능을 향상시키는 간단한 접근 방식을 제시합니다. 1,000개의 질문과 추론 과정으로 구성된 작은 데이터셋 s1K를 생성하고, 모델의 추론 과정을 강제로 종료하거나 연장하는 '예산 강제(budget forcing)' 기법을 개발했습니다. Qwen2.5-32B-Instruct 모델을 s1K로 미세 조정하고 예산 강제 기법을 적용하여 s1-32B 모델을 개발했으며, 이는 경쟁 수학 문제(MATH 및 AIME24)에서 OpenAI의 o1-preview 모델보다 최대 27% 향상된 성능을 보였습니다. 또한, 예산 강제를 통해 테스트 시간 개입 없이 성능을 추가적으로 향상시킬 수 있음을 보였습니다 (AIME24에서 50%에서 57%로 향상). 모델, 데이터 및 코드는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
테스트 시간 스케일링을 위한 간단하고 효과적인 방법 제시
소규모 고품질 데이터셋을 활용한 효율적인 모델 학습 가능성 입증
예산 강제 기법을 통한 성능 향상 및 테스트 시간 개입 최소화
경쟁 수학 문제 풀이 성능에서 상당한 향상 달성
모델, 데이터, 코드의 공개를 통한 연구 재현성 및 발전 가능성 제시
한계점:
s1K 데이터셋의 크기가 상대적으로 작음
예산 강제 기법의 최적 파라미터 설정에 대한 추가 연구 필요
특정 유형의 문제(경쟁 수학 문제)에 대한 성능 평가에 집중되어 일반화 성능에 대한 추가 검증 필요
다른 언어 모델이나 다른 종류의 문제에 대한 일반화 가능성에 대한 추가 연구 필요
👍