The Limits of Inference Scaling Through Resampling

Created by

Haebom

저자

Benedikt Stroebl, Sayash Kapoor, Arvind Narayanan

💡 개요

본 논문은 검증기가 완벽하지 않을 때, 리샘플링을 통한 추론 스케일링의 근본적인 한계를 지적합니다. 특히, 검증기의 오탐(false positive) 확률은 리샘플링으로 줄일 수 없어, 컴퓨팅 자원과 상관없이 추론 정확도에 상한선을 긋게 됩니다. 이는 약한 모델이 강한 모델의 단일 샘플 정확도를 결코 따라잡을 수 없음을 시사합니다.

🔑 시사점 및 한계

•

검증기의 오탐 확률은 리샘플링을 통한 추론 스케일링의 정확도에 이론적인 상한선을 설정합니다.

•

모델의 단일 샘플 정확도와 HumanEval, MBPP 등에서 검증기의 오탐률 사이에는 강한 상관관계가 존재합니다.

•

실제 실험 결과, 오탐의 부정적인 영향이 리샘플링의 이점을 상쇄하여 최적의 샘플링 시도는 10회 미만으로 제한되는 경향이 있습니다.

•

오탐은 코드 스타일 등 기타 바람직하지 않은 특성을 가질 수 있습니다.

•

완벽하지 않은 검증기로 인한 오탐은 리샘플링 기반 추론 스케일링의 효과를 제한하며, 향후 연구는 더욱 견고한 검증기 개발 또는 오탐을 완화하는 새로운 접근 방식에 초점을 맞춰야 합니다.

PDF 보기

Made with Slashpage