Sign In

Committed SAE-Feature Traces for Audited-Session Substitution Detection in Hosted LLMs

Author
  • Haebom
Category
Empty

저자

Ziyang Liu

💡 개요

본 연구는 호스팅된 LLM 제공업체가 더 나은 모델을 광고하고 실제로는 저렴한 대체 모델을 제공하는 '자동 대체' 공격에 대응하기 위한 새로운 프로토콜을 제안합니다. 제안된 프로토콜은 Merkle 트리를 사용하여 모델의 각 위치별 Sparse Autoencoder (SAE) 특성 추적 스케치를 미리 커밋하고, 검증자는 무작위 위치를 열어 공개된 프로브 라이브러리와 비교하여 일관성을 검사합니다. 실험 결과, 제안된 방법론은 다양한 공격 유형(가족 내 업그레이드, 다른 가족 모델 대체, LoRA 공격 등)에 대해 기존 SVIP 방식보다 훨씬 높은 탐지율을 보였습니다.

🔑 시사점 및 한계

LLM 호스팅 서비스에서 발생할 수 있는 '자동 대체' 공격에 대한 강력한 탐지 메커니즘을 제공합니다.
SAE 특성 추적을 활용하여 모델 간의 미묘한 차이를 탐지함으로써 기존 프로브 방식의 한계를 극복합니다.
Merkle 트리를 사용한 커밋먼트 단계가 기존 모델 추론에 미미한 시간 오버헤드(최대 2.1%)를 발생시킵니다.
SAE 인코더를 통한 역전파 공격이나 특성 위조 공격에 대한 방어 메커니즘의 추가적인 분석 및 개선이 필요할 수 있습니다.
👍