Bài báo này trình bày khuôn khổ Tối ưu hóa Chính sách Ngân sách Phân cấp (HBPO) nhằm giải quyết tình trạng kém hiệu quả của các mô hình suy luận quy mô lớn, vốn liên tục thực hiện suy luận quá mức bất chấp nhu cầu tính toán thay đổi theo độ phức tạp của vấn đề. Không giống như các phương pháp hiện có dựa trên các ràng buộc cố định hoặc lựa chọn chế độ rời rạc, HBPO phân vùng không gian tìm kiếm thành các lớp bị ràng buộc ngân sách (512-2560 mã thông báo) với các cấu trúc phần thưởng khác biệt, duy trì cả hiệu quả và hiệu suất suy luận. Để giải quyết vấn đề về hình phạt độ dài thông thường loại trừ các đường suy luận trùng lặp, chúng tôi huấn luyện mô hình để chỉ thực hiện suy luận trùng lặp khi cần thiết, đồng thời duy trì tính đa dạng của quá trình khám phá thông qua lấy mẫu phân cấp và phần thưởng dựa trên ngân sách. Kết quả thử nghiệm chứng minh rằng HBPO giảm mức sử dụng mã thông báo trung bình tới 60,6% và cải thiện độ chính xác 3,14% trên bốn điểm chuẩn suy luận, đồng thời tự động điều chỉnh độ sâu suy luận một cách thích ứng dựa trên độ phức tạp của vấn đề. Tóm lại, chúng tôi chứng minh rằng học phân cấp phù hợp có thể đồng thời tối ưu hóa hiệu quả và hiệu suất suy luận.