Bài báo này trình bày một khuôn khổ xác suất mới cho việc điều chỉnh thời gian suy luận (ITS) nhằm cải thiện hiệu suất suy luận của các mô hình ngôn ngữ quy mô lớn (LLM). Nó khắc phục những hạn chế của các phương pháp lấy mẫu song song dựa trên phương pháp heuristic thông thường và thiết lập nền tảng lý thuyết cho việc điều chỉnh thời gian suy luận tối ưu với giả định rằng các mẫu song song là độc lập và phân phối giống hệt nhau. Bằng cách ước tính phân phối xác suất của chiến lược lựa chọn tốt nhất trong N, chúng tôi đưa ra một giới hạn dưới lý thuyết cho số lượng mẫu tối thiểu cần thiết để đạt được mức hiệu suất mục tiêu. Dựa trên giới hạn dưới này, chúng tôi phát triển thuật toán OptScale, thuật toán này xác định động số lượng mẫu tối ưu. OptScale sử dụng một bộ dự đoán dựa trên mô hình ngôn ngữ để ước tính các tham số tiên nghiệm xác suất và xác định số lượng mẫu tối thiểu thỏa mãn các ngưỡng hiệu suất và mức độ tin cậy được xác định trước. Các thử nghiệm mở rộng trên các chuẩn mực suy luận toán học như MATH-500, GSM8K, AIME và AMC chứng minh rằng OptScale giảm đáng kể chi phí lấy mẫu trong khi vẫn duy trì hiệu suất suy luận tiên tiến. Bài báo này cung cấp cả nền tảng lý thuyết lẫn giải pháp thực tiễn, đóng góp đáng kể vào việc triển khai hiệu quả các chương trình Thạc sĩ Luật (LLM) cho suy luận phức tạp. Mã nguồn được công khai.