Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Probabilistic Optimality for Inference-time Scaling

Created by
  • Haebom

저자

Youkang Wang, Jian Wang, Rubing Chen, Xiao-Yong Wei

개요

본 논문은 대규모 언어 모델(LLM)의 추론 성능 향상을 위한 추론 시간 확장(Inference-time scaling) 기법에 대한 새로운 확률적 프레임워크를 제시합니다. 기존의 휴리스틱 기반 병렬 샘플링 방식의 한계를 극복하고, 병렬 샘플이 독립적이고 동일하게 분포한다는 가정하에 최적의 추론 시간 확장을 위한 이론적 토대를 마련합니다. Best-of-N 선택 전략의 확률 분포를 추정하여 목표 성능 수준 달성에 필요한 최소 샘플 수에 대한 이론적 하한선을 도출하고, 이를 바탕으로 최적의 샘플 수를 동적으로 결정하는 OptScale 알고리즘을 개발했습니다. OptScale은 언어 모델 기반 예측기를 사용하여 확률적 사전 매개변수를 추정하고, 미리 정의된 성능 임계값과 신뢰 수준을 만족하는 최소 샘플 수를 결정합니다. MATH-500, GSM8K, AIME, AMC 등 수학적 추론 벤치마크에 대한 광범위한 실험을 통해 OptScale이 샘플링 오버헤드를 크게 줄이면서 최첨단 추론 성능과 동등하거나 더 나은 성능을 유지함을 보여줍니다. 본 논문은 이론적 기반과 실용적인 해결책을 모두 제공하여 복잡한 추론을 위한 LLM의 효율적인 배포에 중요한 기여를 합니다. 소스 코드는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
LLM의 추론 시간 확장에 대한 최초의 이론적 토대를 제공합니다.
목표 성능 달성에 필요한 최소 샘플 수를 계산하여 컴퓨팅 비용을 효율적으로 절감할 수 있는 OptScale 알고리즘을 제시합니다.
수학적 추론 벤치마크에서 SOTA 성능을 유지하거나 능가하는 결과를 보여줍니다.
공개된 소스 코드를 통해 재현성과 활용성을 높였습니다.
한계점:
병렬 샘플이 독립적이고 동일하게 분포한다는 가정에 기반하여, 실제 데이터의 분포가 이 가정을 충족하지 못할 경우 성능 저하가 발생할 수 있습니다.
언어 모델 기반 예측기의 정확도에 따라 OptScale 알고리즘의 성능이 영향을 받을 수 있습니다.
현재 수학적 추론 벤치마크에 대한 실험 결과만 제시되어 있으며, 다른 유형의 작업에 대한 일반화 가능성은 추가 연구가 필요합니다.
👍