Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OptScale: Probabilistic Optimality for Inference-time Scaling

Created by
  • Haebom
Category
Empty

저자

Youkang Wang, Jian Wang, Rubing Chen, Xiao-Yong Wei

개요

본 논문은 대규모 언어 모델(LLM)의 추론 성능 향상을 위한 추론 시간 스케일링 기법에 대한 연구를 제시합니다. 기존의 휴리스틱한 접근 방식의 한계를 보완하기 위해, 독립적이고 동일하게 분포된(i.i.d.) 병렬 샘플링을 가정하고, Best-of-N 선택 전략의 확률 분포를 추정하는 확률적 프레임워크를 제안합니다. 이 프레임워크를 통해, 목표 성능 수준을 달성하기 위한 샘플 수를 이론적으로 하한선으로 제시하고, 계산 효율적인 스케일링을 위한 원칙적인 지침을 제공합니다. 실용적인 알고리즘인 \textsc{OptScale}을 개발하여, 동적으로 최적의 샘플링 응답 수를 결정합니다. \textsc{OptScale}은 언어 모델 기반 예측기를 사용하여 확률적 사전 매개변수를 추정하여, 사전 정의된 성능 임계값 및 신뢰 수준을 충족하는 최소 샘플 수를 결정합니다. 다양한 추론 벤치마크 실험을 통해, \textsc{OptScale}이 샘플링 오버헤드를 크게 줄이면서도 최첨단 성능을 유지함을 입증합니다.

시사점, 한계점

시사점:
LLM 추론 성능 향상을 위한 추론 시간 스케일링의 이론적 기반 제시.
계산 효율적인 스케일링을 위한 원칙적인 지침 제공.
실용적인 알고리즘 \textsc{OptScale} 개발 및 성능 입증.
다양한 추론 벤치마크에서 기존 방법 대비 우수한 성능 또는 동등한 성능 달성.
오픈 소스 코드 공개.
한계점:
독립적이고 동일하게 분포된(i.i.d.) 샘플링 가정의 현실적인 한계.
Best-of-N 선택 전략의 확률 분포 추정에 대한 의존성.
언어 모델 기반 예측기의 성능에 따른 \textsc{OptScale}의 성능 변동 가능성.
👍