Bài báo này nghiên cứu học tăng cường (RL) cho một lớp bài toán tương tự như các bài toán điều khiển tuyến tính bậc hai ngẫu nhiên liên tục (LQ) đã được thảo luận trong Huang và cộng sự (2024). Trạng thái là một bài toán có giá trị vô hướng, và tính biến thiên phụ thuộc vào cả trạng thái và điều khiển khi không có phần thưởng điều khiển thực thi. Trong bài báo này, chúng tôi đề xuất một cơ chế tìm kiếm không mô hình, dựa trên dữ liệu, điều chỉnh một cách thích ứng việc điều chỉnh entropy của tác nhân phê bình và sự phân kỳ chính sách của tác nhân. Không giống như các lịch trình tìm kiếm cố định hoặc xác định được sử dụng trong các nghiên cứu trước đây (Huang và cộng sự, 2024), phương pháp tìm kiếm thích ứng được đề xuất cải thiện hiệu quả học tập với các điều chỉnh tối thiểu. Mặc dù linh hoạt, phương pháp của chúng tôi đạt được một giới hạn hối tiếc gần như tuyến tính phù hợp với kết quả tốt nhất không mô hình cho lớp bài toán LQ này, vốn trước đây chỉ được rút ra với các lịch trình tìm kiếm cố định. Các thí nghiệm số cho thấy tìm kiếm thích ứng tăng tốc độ hội tụ và cải thiện hiệu suất hối tiếc so với các phương pháp dựa trên mô hình và không dựa trên mô hình thích ứng.