Sign In

Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models

Created by
  • Haebom
Category
Empty

저자

Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang

개요

본 논문은 대규모 언어 모델(LLM)의 추론 스케일링 법칙(test-time scaling laws)을 연구하고, 모델 크기와 다양한 추론 전략을 사용한 추가 토큰 생성 간의 절충점에 초점을 맞춰 계산적으로 최적의 추론을 연구합니다. 탐욕적 검색, 다수결 투표, best-of-$n$, 가중 투표 및 두 가지 다른 트리 검색 알고리즘과 같은 추론 전략에 대한 비용-성능 절충 관계를 다양한 모델 크기와 계산 예산을 사용하여 연구했습니다. 연구 결과, 추론 전략을 사용하여 추론 계산을 확장하는 것이 모델 매개변수를 확장하는 것보다 계산적으로 더 효율적일 수 있음을 시사합니다. 또한, 고급 추론 알고리즘과 결합된 더 작은 모델이 비용과 성능 면에서 Pareto 최적의 절충안을 제공합니다. 예를 들어, 새로운 트리 검색 알고리즘과 함께 사용된 Llemma-7B 모델은 MATH 벤치마크에서 테스트된 모든 추론 전략에서 Llemma-34B 모델을 일관되게 능가합니다.

시사점, 한계점

시사점:
추론 전략을 사용한 추론 계산 확장은 모델 매개변수 확장보다 계산적으로 더 효율적일 수 있다는 것을 발견했습니다.
더 작은 모델과 고급 추론 알고리즘의 조합이 비용과 성능 면에서 Pareto 최적의 절충안을 제공합니다. (예: Llemma-7B + 새로운 트리 검색 알고리즘 > Llemma-34B)
LLM 추론 스케일링 법칙에 대한 이해를 심화시키는 데 기여합니다.
한계점:
연구는 특정 모델(Llemma)과 벤치마크(MATH)에 국한되어 일반화 가능성에 대한 추가 연구가 필요합니다.
다양한 유형의 LLM과 벤치마크에 대한 추가 실험이 필요합니다.
제안된 트리 검색 알고리즘의 일반적인 효율성 및 적용 가능성에 대한 추가 분석이 필요합니다.
👍