Committed SAE-Feature Traces for Audited-Session Substitution Detection in Hosted LLMs

Author

Haebom

저자

Ziyang Liu

💡 개요

본 연구는 호스팅된 LLM 제공업체가 더 나은 모델을 광고하고 실제로는 저렴한 대체 모델을 제공하는 '자동 대체' 공격에 대응하기 위한 새로운 프로토콜을 제안합니다. 제안된 프로토콜은 Merkle 트리를 사용하여 모델의 각 위치별 Sparse Autoencoder (SAE) 특성 추적 스케치를 미리 커밋하고, 검증자는 무작위 위치를 열어 공개된 프로브 라이브러리와 비교하여 일관성을 검사합니다. 실험 결과, 제안된 방법론은 다양한 공격 유형(가족 내 업그레이드, 다른 가족 모델 대체, LoRA 공격 등)에 대해 기존 SVIP 방식보다 훨씬 높은 탐지율을 보였습니다.

🔑 시사점 및 한계

•

LLM 호스팅 서비스에서 발생할 수 있는 '자동 대체' 공격에 대한 강력한 탐지 메커니즘을 제공합니다.

•

SAE 특성 추적을 활용하여 모델 간의 미묘한 차이를 탐지함으로써 기존 프로브 방식의 한계를 극복합니다.

•

Merkle 트리를 사용한 커밋먼트 단계가 기존 모델 추론에 미미한 시간 오버헤드(최대 2.1%)를 발생시킵니다.

•

SAE 인코더를 통한 역전파 공격이나 특성 위조 공격에 대한 방어 메커니즘의 추가적인 분석 및 개선이 필요할 수 있습니다.

PDF 보기

Made with Slashpage