본 논문은 대규모 언어 모델(LLM)의 개인정보 감사를 위한 기존 기법의 효과가 제한적이라는 점을 지적하며, 더욱 효과적인 "카나리아(canaries)" 생성 방법을 제시합니다. 기존 방법보다 현실적인 위협 모델 하에서 훨씬 효과적인 카나리아를 개발하여 다양한 미세 조정된 LLM에 대한 광범위한 실험을 통해 개인정보 유출 탐지에 대한 새로운 기준을 제시합니다. 특히 비개인정보 보호 방식으로 훈련된 LLM의 기억률 측정에서 기존 접근 방식을 능가하는 성능을 보이며, 예를 들어 Qwen2.5-0.5B 모델에서 1% FPR에서 49.6% TPR을 달성하여 기존 접근 방식의 4.2% TPR을 크게 능가합니다. 또한 공격자가 섀도우 모델을 훈련하거나, 그래디언트 카나리아를 삽입하거나, 매 반복마다 모델에 접근할 수 없는 설정에서 LLM 훈련의 개인정보 감사에 있어 중요한 성공을 거둔 최초의 사례라고 주장합니다. 이를 통해 이론적 ε이 4인 모델에 대해 ε ≈ 1의 개인정보 감사를 제공할 수 있습니다.