본 논문은 대규모 언어 모델에서의 효과적인 unlearning을 위한 새로운 방법인 ReLearn을 제안합니다. 기존의 역전 최적화 기반 unlearning 방법은 목표 토큰 확률을 줄이지만, 이는 후속 토큰 예측을 방해하여 모델 성능과 언어적 일관성을 저하시키는 문제점을 가지고 있습니다. ReLearn은 데이터 증강 및 미세 조정 파이프라인을 통해 이러한 문제를 해결하며, 지식 손실률(KFR), 지식 유지율(KRR), 언어 점수(LS)를 포함하는 포괄적인 평가 프레임워크를 제시합니다. 실험 결과, ReLearn은 목표 지식의 삭제와 높은 품질의 출력 유지를 성공적으로 달성함을 보여줍니다. 또한 기계적 분석을 통해 역전 최적화가 일관된 텍스트 생성을 방해하는 반면, ReLearn은 이러한 필수 기능을 유지함을 보여줍니다. 코드는 https://github.com/zjunlp/unlearn 에서 확인할 수 있습니다.