본 연구는 파인 튜닝 과정에서 대형 언어 모델(LLM)이 데이터 포이즈닝 백도어 공격에 취약하다는 점에 주목하여, 일반적이고 효과적인 백도어 방어 알고리즘인 Poison-to-Poison(P2P)를 제안한다. P2P는 안전한 대체 레이블을 가진 양성 트리거를 훈련 샘플의 일부에 주입하고, 프롬프트 기반 학습을 활용하여 이 재-포이즌된 데이터셋에 모델을 미세 조정한다. 이를 통해 트리거로 유도된 표현을 안전한 출력과 연결하도록 하여 원래의 악의적인 트리거의 영향을 무력화한다. P2P는 다양한 작업 설정 및 공격 유형에서 효과적이며, 이론적 및 실증적으로 백도어를 무력화하면서 작업 성능을 유지할 수 있음을 입증했다. 분류, 수학적 추론, 요약 생성 등 다양한 작업과 여러 최첨단 LLM에 대한 광범위한 실험을 수행하여 P2P 알고리즘이 기준 모델에 비해 공격 성공률을 크게 감소시킨다는 것을 확인했다.