Cet article présente une méthode d'apprentissage par renforcement sécurisé sous contraintes exprimées en langage naturel. Les méthodes existantes présentent la limitation de nécessiter la conception manuelle de fonctions de coût pour chaque contrainte. Dans cet article, nous proposons le traducteur de contraintes textuelles au niveau de la trajectoire (TTCT), qui génère automatiquement des fonctions de coût à l'aide de contraintes en langage naturel. TTCT apprend en combinant contraintes en langage naturel et trajectoires, et les résultats expérimentaux démontrent qu'il apprend des politiques avec des taux de violation inférieurs à ceux des fonctions de coût conçues manuellement. De plus, nous démontrons une capacité de transfert sans exécution, applicable aux environnements à contraintes variables.