Bài báo này trình bày một phương pháp sử dụng học tăng cường để huấn luyện một vectơ lái $d$-chiều duy nhất trên mỗi lớp, trong khi vẫn giữ nguyên các trọng số cơ sở. Phương pháp này đạt được hiệu suất tương đương với hiệu suất của một mô hình suy luận được điều chỉnh RL hoàn toàn trên một tác vụ suy luận toán học. Tham số hóa bổ sung chỉ chiếm khoảng 0,0016% của mô hình 8 tỷ tham số và hiệu suất có thể tái tạo trên nhiều mô hình cơ sở và điểm chuẩn suy luận toán học. Những kết quả này thu hẹp giới hạn trên của ngân sách tham số cần thiết cho suy luận chuỗi suy nghĩ đa chiều, cho thấy rằng hàng triệu trọng số bộ điều hợp là không cần thiết. Không gian huấn luyện tối thiểu làm giảm giao tiếp giữa bộ nhớ trình tối ưu hóa và GPU, giảm tổng chi phí tinh chỉnh. Hơn nữa, phân tích thấu kính logit chứng minh rằng các vectơ đã học khuếch đại các hướng mã thông báo nhất quán, cung cấp cái nhìn sâu sắc rõ ràng về tính toán nội bộ của mô hình.