본 논문은 모델 크기나 데이터 크기를 키우는 대신 추론 시간에 사용하는 계산량을 늘리는 방법으로 대규모 언어 모델(LLM)의 성능 향상을 모색합니다. 기존의 추론 시간 확장 방법들은 보상 모델을 사용하여 문제를 탐색 문제로 규정하는데, 이는 보상 모델의 근사 오차로 인해 보상 해킹에 취약합니다. 본 논문에서는 추론 시간 확장을 확률적 추론 문제로 규정하고, 샘플링 기반 기법을 활용하여 근사 우도를 가진 상태 공간 모델의 상태 분포의 전형적인 집합을 탐색합니다. 입자 기반 몬테카를로 방법을 적용한 새로운 추론 시간 확장 방법을 제안하며, 다양한 어려운 수학적 추론 작업에서 기존 결정적 탐색 방법보다 4~16배 더 나은 확장률을 보임을 실험적으로 입증합니다. Qwen2.5-Math-1.5B-Instruct 모델은 제안된 방법을 사용하여 4번의 rollout만으로 GPT-4의 정확도를 능가하고, Qwen2.5-Math-7B-Instruct 모델은 32번의 rollout만으로 0.1 수준의 정확도를 달성합니다. 본 연구는 효과적인 추론 시간 확장 방법을 제시할 뿐만 아니라, 풍부한 확률적 추론 관련 연구와 LLM의 추론 시간 확장을 연결하여 향후 더욱 강력한 알고리즘 개발의 토대를 마련합니다.