본 논문은 대규모 언어 모델(LLM)의 독성 제거를 위한 새롭고 효율적인 방법을 제안합니다. 기존의 독성 제거 방법들은 대규모 데이터 학습, 프롬프트 엔지니어링, 모델 파라미터 수정 등 계산 비용이 많이 들고, 강건성이 부족하며, 유창성과 문맥 이해력을 저해하는 단점이 있습니다. 본 논문에서는 사전 훈련된 소형 보정 모델을 활용하여 목표 LLM의 생성 파이프라인에 경량의 개입을 통해 독성 제거를 수행하는 방법을 제시합니다. 비독성 데이터로부터 학습된 보정 모델은 LLM이 유해한 콘텐츠를 생성하지 않도록 유도합니다. 이 방법은 보정 모델을 한 번만 학습하면 다양한 LLM에 적용 가능하며, 유창성이나 문맥 이해력을 저해하지 않습니다. 벤치마크 데이터셋 실험 결과, 본 방법은 독성을 줄이면서도 적절한 콘텐츠 표현을 유지하는 것을 보여줍니다.