Dans cet article, nous proposons une nouvelle méthode de détoxication de texte qui supprime le contenu nuisible tout en préservant le sens original, afin de résoudre le problème de la prolifération de contenu nuisible sur les réseaux sociaux. Pour surmonter les limites des méthodes existantes, telles que la faible performance, la difficulté à préserver le sens, la vulnérabilité aux données hors distribution et la forte dépendance aux données, nous présentons un cadre d'apprentissage en deux étapes. Dans la première étape, un modèle initial robuste est construit par apprentissage supervisé et affiné à l'aide de données parallèles filtrées de haute qualité. Dans la deuxième étape, LLM est entraîné par optimisation de politique relative de groupe à l'aide de données d'entrée nuisibles non étiquetées et d'un modèle de récompense défini par l'utilisateur. Les résultats expérimentaux montrent que la méthode proposée atténue efficacement les limites des méthodes existantes, atteint des performances de pointe, améliore les performances de généralisation et réduit considérablement la dépendance aux données d'annotation. Le code source est disponible sur GitHub.