Bài báo này đề xuất R-Stitch, một phương pháp mới giúp giảm chi phí tính toán của suy luận Chuỗi Tư duy (CoT). Suy luận CoT nâng cao khả năng giải quyết vấn đề của các mô hình ngôn ngữ quy mô lớn (LLM), nhưng lại tốn kém về mặt tính toán do giải mã tự hồi quy các chuỗi mã thông báo dài. Các chiến lược tăng tốc hiện có hoặc giảm độ dài chuỗi thông qua các lược đồ bù trừ nén hoặc dừng sớm, hoặc cải thiện tốc độ giải mã thông qua giải mã dự đoán sử dụng các mô hình quy mô nhỏ. Tuy nhiên, giải mã dự đoán có tốc độ tăng hạn chế khi độ phù hợp giữa các mô hình quy mô nhỏ và quy mô lớn thấp, và không tận dụng được các lợi ích tiềm năng của các mô hình quy mô nhỏ trong việc tạo ra các suy luận trung gian ngắn gọn. R-Stitch là một khuôn khổ giải mã lai dựa trên độ tin cậy ở cấp độ mã thông báo, chuyển đổi giữa các mô hình ngôn ngữ quy mô nhỏ (SLM) và các mô hình ngôn ngữ quy mô lớn (LLM), chỉ sử dụng LLM khi độ tin cậy của SLM giảm xuống dưới một ngưỡng, duy trì cả hiệu quả và độ chính xác. Nó độc lập với mô hình, không yêu cầu đào tạo và tương thích với các quy trình giải mã tiêu chuẩn. Các thí nghiệm đánh giá chuẩn suy luận toán học cho thấy R-Stitch giảm độ trễ suy luận tới 85% với độ suy giảm độ chính xác tối thiểu.