Bài báo này trình bày một phương pháp thực hiện học tăng cường an toàn dưới các ràng buộc được thể hiện bằng ngôn ngữ tự nhiên. Các phương pháp hiện có có hạn chế là yêu cầu thiết kế thủ công các hàm chi phí cho mỗi ràng buộc. Trong bài báo này, chúng tôi đề xuất Bộ dịch ràng buộc văn bản cấp quỹ đạo (TTCT), tự động tạo ra các hàm chi phí bằng cách sử dụng các ràng buộc ngôn ngữ tự nhiên. TTCT học bằng cách kết hợp các ràng buộc ngôn ngữ tự nhiên với các quỹ đạo, và kết quả thực nghiệm chứng minh rằng nó học các chính sách có tỷ lệ vi phạm thấp hơn so với các hàm chi phí được thiết kế thủ công hiện có. Hơn nữa, chúng tôi chứng minh khả năng truyền zero-shot, có thể được áp dụng cho các môi trường có ràng buộc thay đổi.