본 논문은 소셜 미디어 상의 유해 콘텐츠 확산 문제를 해결하기 위해, 유해성을 제거하면서 원래 의미를 보존하는 새로운 텍스트 해독(detoxification) 방법을 제안합니다. 기존 방법들의 한계점인 낮은 데이터 효율성, 의미 보존의 어려움, 그리고 분포 외 데이터에 대한 취약성을 극복하기 위해, 두 단계의 학습 프레임워크를 제시합니다. 첫 번째 단계에서는 고품질의 필터링된 병렬 데이터를 사용하여 강력한 초기 모델을 구축하고, 두 번째 단계에서는 레이블이 없는 유해 콘텐츠와 사용자 정의 보상 모델을 활용하여 Group Relative Policy Optimization을 통해 LLM을 학습시킵니다. 실험 결과, 제안된 방법은 기존 방법들의 trade-off를 효과적으로 완화하여 최첨단 성능을 달성하고, 일반화 성능을 향상시키며, 주석 데이터 의존성을 크게 줄였음을 보여줍니다.