본 논문은 대규모 언어 모델에서의 기존 unlearning 방법이 역방향 최적화에 의존하여 목표 토큰 확률을 낮추는 과정에서 후속 토큰 예측을 방해하고 모델 성능과 언어적 일관성을 저하시키는 문제점을 지적합니다. 또한, 기존 평가 지표가 문맥적 망각에 치우쳐 응답의 유창성과 관련성을 제대로 평가하지 못한다는 점을 지적합니다. 이를 해결하기 위해, 본 논문은 효과적인 unlearning을 위한 데이터 증강 및 미세 조정 파이프라인인 ReLearn과 종합적인 평가 프레임워크를 제안합니다. 이 프레임워크는 지식 수준 보존을 측정하기 위해 지식 망각률(KFR)과 지식 유지율(KRR)을, 생성 품질을 평가하기 위해 언어 점수(LS)를 도입합니다. 실험 결과, ReLearn은 고품질 출력을 유지하면서 목표하는 망각을 성공적으로 달성함을 보여줍니다. 기계적 분석을 통해 역방향 최적화가 일관된 텍스트 생성을 방해하는 반면, ReLearn은 이 필수적인 기능을 보존한다는 것을 보여줍니다. 코드는 https://github.com/zjunlp/unlearn 에서 이용 가능합니다.