Este artículo presenta un método para realizar aprendizaje de refuerzo seguro bajo restricciones expresadas en lenguaje natural. Los métodos existentes presentan la limitación de requerir el diseño manual de funciones de costo para cada restricción. En este artículo, proponemos el Traductor de Restricciones Textuales a Nivel de Trayectoria (TTCT), que genera automáticamente funciones de costo utilizando restricciones de lenguaje natural. TTCT aprende combinando restricciones de lenguaje natural con trayectorias, y los resultados experimentales demuestran que aprende políticas con tasas de incumplimiento más bajas que las funciones de costo diseñadas manualmente. Además, demostramos la capacidad de transferencia de disparo cero, aplicable a entornos con restricciones cambiantes.