Sign In

Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding

Created by
  • Haebom
Category
Empty

저자

Yiming Wang, Pei Zhang, Siyuan Huang, Baosong Yang, Zhuosheng Zhang, Fei Huang, Rui Wang

개요

본 논문은 추론 과정에서 추가적인 컴퓨팅 자원을 할당하여 대규모 언어 모델(LLM)의 성능을 향상시키는 테스트 시간 스케일링 기법에 대해 연구한다. 특히, 샘플링 기반 스케일링 기술인 Best-of-N(BoN) 샘플링의 효율성 문제를 해결하고자 한다. BoN 샘플링의 주요 문제점인 과도한 GPU 메모리 사용량과 보상 모델의 필요성을 해결하기 위해, 본 논문은 모든 N개의 샘플을 완전 생성하지 않고 보상 모델 없이 작동하는 Self-Truncation Best-of-N (ST-BoN)을 제안한다. ST-BoN은 모델 내부 상태의 초기 일관성을 활용하여 가장 유망한 경로를 식별하고, 비효율적인 경로를 잘라낸다. ST-BoN은 기존 Full-BoN과 동일한 성능을 유지하면서 70-80%의 계산 비용을 절감하며, 동일한 비용으로 3-4점의 정확도 향상을 달성한다. 또한, 동적 GPU 메모리 사용량을 80% 이상, 추론 지연 시간을 50% 줄인다.

시사점, 한계점

ST-BoN은 BoN 샘플링의 메모리 사용량과 추론 지연 시간 문제를 효과적으로 해결하여 비용 효율적인 성능 향상을 제공한다.
보상 모델 없이 작동하여 관련 비용과 복잡성을 줄인다.
동일한 비용으로 더 높은 정확도를 달성하거나, 동일한 성능을 유지하면서 계산 비용을 절감하는 것이 가능하다.
ST-BoN의 구체적인 성능은 모델의 종류, 작업 유형, 하드웨어 환경에 따라 달라질 수 있다.
ST-BoN이 모든 LLM 및 작업에 최적의 선택이 아닐 수 있으며, 다른 스케일링 기법과의 비교 분석이 필요하다.
내부 상태의 초기 일관성을 활용하는 방식의 한계점을 추가 연구를 통해 밝혀야 한다.
👍