본 논문은 대규모 언어 모델(LLM)에서 민감하거나 저작권이 있는 콘텐츠를 제거하기 위한 머신 언러닝 기법의 문제점과 해결 방안을 제시한다. LLM의 재학습 비용이 높기 때문에 머신 언러닝을 통해 특정 콘텐츠를 제거하면서 성능을 유지하는 것이 중요하다. 기존 머신 언러닝 평가의 부족을 해결하기 위해 토큰 다양성, 문장 의미, 사실 정확성을 평가하는 세 가지 지표를 제안한다. 또한 머신 언러닝 방법을 타겟팅되지 않은 방법과 타겟팅된 방법으로 분류하고 각각의 문제점(타겟팅되지 않은 방법의 예측 불가능성 및 환각, 타겟팅된 방법의 기존 정규화의 부족)을 논의한다. 타겟팅되지 않은 방법에는 엔트로피 극대화(ME) 목표를, 타겟팅된 방법에는 답변 보존(AP) 손실을 정규화로 사용하는 것을 제안한다. 가상, 지속적, 실제 세계 시나리오 세 가지 실험을 통해 제안된 방법의 효과를 입증하고, 코드를 공개한다.