Bài báo này trình bày một phương pháp nhằm cải thiện tính mạnh mẽ của kỹ thuật Nhân bản Hành vi (BC). Mặc dù BC là một kỹ thuật học mô phỏng hiệu quả, huấn luyện các chính sách chỉ sử dụng dữ liệu cặp trạng thái-hành động của chuyên gia, nhưng nó dễ bị lỗi đo lường và nhiễu đối nghịch trong quá trình triển khai. Những lỗi này có thể khiến các tác nhân thực hiện các hành động không tối ưu. Nghiên cứu này chứng minh rằng việc sử dụng chính quy hóa Lipschitz toàn cục giúp cải thiện tính mạnh mẽ của mạng chính sách đã học, đảm bảo tính mạnh mẽ của chính sách trước nhiều nhiễu loạn chuẩn bị giới hạn. Hơn nữa, chúng tôi đề xuất một phương pháp xây dựng mạng nơ-ron Lipschitz đảm bảo tính mạnh mẽ của chính sách và kiểm chứng phương pháp này trên nhiều môi trường Gymnasium khác nhau.