Bài báo này trình bày một khuôn khổ cho suy luận ngầm hiệu quả của các mô hình ngôn ngữ quy mô lớn (LLM). Phương pháp gợi ý CoT thông thường có nhược điểm là tốn kém về mặt tính toán và chậm, vì vậy trong bài báo này, chúng tôi đề xuất một phương pháp suy luận trong không gian tiềm ẩn mà không cần tạo ra quy trình tính toán một cách rõ ràng dưới dạng văn bản. Để đạt được mục đích này, chúng tôi mô hình hóa quy trình suy nghĩ tiềm ẩn như một hành động trừu tượng (tùy chọn) được mở rộng theo thời gian trong một khuôn khổ học tăng cường phân cấp, và học các tùy chọn khác nhau dưới dạng nhúng tiềm ẩn bằng thuật toán phê bình tùy chọn Markov biến phân (VMOC). Chúng tôi mở rộng lý thuyết về đồng cấu MDP liên tục để chứng minh rằng học chính sách trong không gian tiềm ẩn bảo toàn giải pháp tối ưu của bài toán phức tạp ban đầu, và đề xuất một quy trình khởi động lạnh chắt lọc các minh họa suy luận của con người vào không gian tùy chọn tiềm ẩn bằng cách sử dụng dữ liệu tinh chỉnh có giám sát (SFT). Kết quả thực nghiệm trên các chuẩn mực suy luận logic phức tạp và các tác vụ di chuyển chứng minh tính hiệu quả của khuôn khổ được đề xuất.