Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Probabilistic Optimality for Inference-time Scaling

Created by
  • Haebom

저자

Youkang Wang, Jian Wang, Rubing Chen, Xiao-Yong Wei, Qing Li

개요

본 논문은 대규모 언어 모델(LLM)의 추론 성능 향상을 위한 추론 시 확장(inference-time scaling) 기법에 대해 다룬다. 기존의 추론 시 확장 방법들은 휴리스틱 전략에 의존하는 경우가 많아 이론적 기반이 부족하다는 문제점을 지적하며, 병렬 샘플이 독립적이고 동일하게 분포한다는 가정 하에 최적의 추론 시 확장을 공식화하는 확률적 프레임워크를 제안한다. 이 프레임워크 내에서 목표 성능 수준을 달성하기 위한 필요한 샘플 수의 이론적 하한선을 도출하고, 이를 바탕으로 최적의 샘플 수를 동적으로 결정하는 실용적인 알고리즘인 OptScale을 개발하였다. OptScale은 언어 모델 기반 예측기를 사용하여 확률적 사전 매개변수를 추정하고, 미리 정의된 성능 임계값과 신뢰 수준을 만족하는 데 필요한 최소 샘플 수를 결정한다. 수학적 추론 벤치마크(MATH-500, GSM8K, AIME, AMC 포함)에 대한 광범위한 실험을 통해 OptScale이 샘플링 오버헤드를 크게 줄이면서 최첨단 추론 성능과 동등하거나 더 나은 성능을 유지함을 보여준다. 결론적으로 본 논문은 복잡한 추론을 위한 LLM의 효율적인 배포에 있어 중요한 격차를 해소하는 이론적 기반과 실용적인 해결책을 모두 제공한다.

시사점, 한계점

시사점:
LLM의 추론 시 확장을 위한 최초의 이론적 기반을 제공한다.
샘플링 오버헤드를 줄이면서 최첨단 성능을 유지하는 실용적인 알고리즘(OptScale)을 제시한다.
수학적 추론 벤치마크에서 OptScale의 효과를 실험적으로 검증한다.
LLM의 효율적인 배포를 위한 새로운 가능성을 제시한다.
한계점:
병렬 샘플이 독립적이고 동일하게 분포한다는 가정에 대한 의존도가 높다. 실제 상황에서는 이 가정이 항상 만족되지 않을 수 있다.
OptScale의 성능은 언어 모델 기반 예측기의 정확도에 의존하며, 예측기의 성능 저하가 전체 시스템의 성능에 영향을 미칠 수 있다.
다양한 유형의 추론 작업에 대한 일반화 가능성에 대한 추가 연구가 필요하다.
특정 언어 모델이나 벤치마크에 대한 결과가 일반화될 수 있는지에 대한 추가적인 검증이 필요하다.
👍