본 논문은 최신 대규모 언어 모델(LLM)의 독약 알약 공격(poison pill attacks)에 대한 취약성을 체계적으로 보여줍니다. 독약 알약 공격은 모델의 전반적인 유용성을 유지하면서 특정 사실적 지식을 변경하는 국소적인 데이터 오염 공격입니다. 연구진은 이러한 공격이 LLM의 고유한 아키텍처적 특성을 악용하여 장기간 지식에 대한 검색 부정확성을 54.6%까지, 압축된 모델에서 원래 아키텍처보다 최대 25.5%까지 증가시키는 것을 보여줍니다. 제어된 변이(예: 시간적/공간적/개체 변경)를 통해 모델의 국소적 기억력 저하를 유도하지만, 일반적인 표준 벤치마크(예: MMLU/GPQA에서 2% 미만의 성능 저하)에 대한 모델 성능에는 미미한 영향을 미치므로 잠재적인 탐지 회피가 가능합니다. 연구 결과는 (1) 장기간 지식의 불균형적인 취약성은 매개변수 중복성 감소로 인한 결과일 수 있으며, (2) 모델 압축은 공격 표면을 증가시킬 수 있으며, 가지치기/증류된 모델은 동등한 피해를 입히는 데 30% 적은 독약 샘플이 필요하고, (3) 연상 기억은 관련 개념으로의 부수적 피해 확산과 동시 공격으로 인한 피해 증폭을 가능하게 하며, 특히 주요 주제에서 그렇다는 것을 시사합니다. 이러한 결과는 공격 비용은 감소하는 반면 방어 복잡성은 증가하고 있기 때문에 현재의 확장 패러다임에 대한 우려를 제기합니다. 본 연구는 독약 알약을 보안 위협이자 진단 도구로 확립하여, 기존의 안전성 가정에 도전하는 언어 모델 압축에서 중요한 보안-효율성 트레이드오프를 보여줍니다.