본 논문은 대규모 언어 모델(LLM)의 학습 데이터에 포함된 저작권, 편향, 개인 정보와 같은 민감한 정보의 암기로 인한 윤리적, 법적 문제점을 해결하기 위해 블랙박스 LLM을 위한 오프셋 언러닝 프레임워크인 δ-Unlearning을 제안한다. 기존 언러닝 기법들이 모델 내부 가중치 접근이 필요하거나 추론 시 민감한 데이터를 유지해야 하는 문제점을 갖는 것과 달리, δ-Unlearning은 블랙박스 LLM 자체를 조정하는 대신 두 개의 작은 모델의 로짓을 비교하여 언러닝에 필요한 로짓 오프셋을 학습한다. 실험 결과, δ-Unlearning은 목표 데이터를 효과적으로 언러닝하면서 일반적인 잊어서는 안 될 작업에 대한 성능을 유지하거나 개선할 수 있음을 보여준다. 또한 다양한 언러닝 알고리즘을 효과적으로 통합하여 다양한 기존 언러닝 알고리즘을 블랙박스 LLM에 적용할 수 있는 다목적 솔루션을 제공한다.