Bài báo này đề cập đến sự quan tâm ngày càng tăng gần đây về các công thức phần thưởng trung bình cho học tăng cường (RL) có thể giải quyết các vấn đề dài hạn mà không cần chiết khấu. Trong các thiết lập chiết khấu, các thuật toán điều chỉnh entropy đã được phát triển, chứng minh hiệu suất vượt trội so với các phương pháp xác định. Tuy nhiên, các thuật toán RL sâu nhắm đến các mục tiêu phần thưởng trung bình điều chỉnh entropy vẫn chưa được phát triển. Để giải quyết khoảng trống này, bài báo này đề xuất một thuật toán tác nhân-phê bình mềm phần thưởng trung bình. Chúng tôi xác thực phương pháp của mình bằng cách so sánh nó với các thuật toán phần thưởng trung bình hiện có trên các chuẩn RL tiêu chuẩn, đạt được hiệu suất vượt trội cho tiêu chí phần thưởng trung bình.