The Limits of Inference Scaling Through Resampling
Created by
Haebom
Category
Empty
저자
Benedikt Stroebl, Sayash Kapoor, Arvind Narayanan
💡 개요
본 논문은 검증기가 완벽하지 않을 때, 리샘플링을 통한 추론 스케일링의 근본적인 한계를 지적합니다. 특히, 검증기의 오탐(false positive) 확률은 리샘플링으로 줄일 수 없어, 컴퓨팅 자원과 상관없이 추론 정확도에 상한선을 긋게 됩니다. 이는 약한 모델이 강한 모델의 단일 샘플 정확도를 결코 따라잡을 수 없음을 시사합니다.
🔑 시사점 및 한계
•
검증기의 오탐 확률은 리샘플링을 통한 추론 스케일링의 정확도에 이론적인 상한선을 설정합니다.
•
모델의 단일 샘플 정확도와 HumanEval, MBPP 등에서 검증기의 오탐률 사이에는 강한 상관관계가 존재합니다.
•
실제 실험 결과, 오탐의 부정적인 영향이 리샘플링의 이점을 상쇄하여 최적의 샘플링 시도는 10회 미만으로 제한되는 경향이 있습니다.
•
오탐은 코드 스타일 등 기타 바람직하지 않은 특성을 가질 수 있습니다.
•
완벽하지 않은 검증기로 인한 오탐은 리샘플링 기반 추론 스케일링의 효과를 제한하며, 향후 연구는 더욱 견고한 검증기 개발 또는 오탐을 완화하는 새로운 접근 방식에 초점을 맞춰야 합니다.