본 연구는 호스팅된 LLM 제공업체가 더 나은 모델을 광고하고 실제로는 저렴한 대체 모델을 제공하는 '자동 대체' 공격에 대응하기 위한 새로운 프로토콜을 제안합니다. 제안된 프로토콜은 Merkle 트리를 사용하여 모델의 각 위치별 Sparse Autoencoder (SAE) 특성 추적 스케치를 미리 커밋하고, 검증자는 무작위 위치를 열어 공개된 프로브 라이브러리와 비교하여 일관성을 검사합니다. 실험 결과, 제안된 방법론은 다양한 공격 유형(가족 내 업그레이드, 다른 가족 모델 대체, LoRA 공격 등)에 대해 기존 SVIP 방식보다 훨씬 높은 탐지율을 보였습니다.