Architectural Backdoors for Within-Batch Data Stealing and Model Inference Manipulation

Created by

Haebom

저자

Nicolas Kuchler, Ivan Petrov, Conrad Grobler, Ilia Shumailov

💡 개요

본 논문은 신경망의 예측을 조작하는 기존의 백도어 공격에서 더 나아가, 배치 추론 과정을 악용하여 사용자 데이터 탈취 및 모델 추론 조작을 가능하게 하는 새로운 아키텍처 백도어 공격을 제안합니다. 이 백도어는 동일 배치 내 사용자 요청 간의 정보 유출을 유발하며, 공격자는 다른 사용자의 입력과 출력을 훔치거나 제어할 수 있습니다.

🔑 시사점 및 한계

•

강력한 사용자 데이터 탈취 및 모델 제어 가능성: 배치 추론이라는 실제 환경에서 흔히 사용되는 기법을 악용하여, 단순한 예측 조작을 넘어 사용자 데이터 자체를 훔치고 모델 응답을 조작할 수 있다는 점에서 심각한 위협을 제기합니다.

•

광범위한 모델 아키텍처에 대한 공격 가능성: 트랜스포머와 같은 널리 사용되는 모델 아키텍처에 쉽게 주입될 수 있어, 광범위한 모델에 대한 잠재적 취약성을 시사합니다.

•

정보 흐름 제어를 통한 형식적 보장 가능한 완화 전략 제안: 동적 양자화로 인해 발생하는 의도치 않은 정보 유출을 탐지하고 방지하기 위한 정보 흐름 제어 기반의 결정론적 완화 전략을 제안하며, 이는 이전 연구의 한계를 극복합니다.

•

실제 환경에서의 대규모 취약성 발견: Hugging Face에서 호스팅되는 200개 이상의 모델에서 동적 양자화로 인한 정보 유출 취약성을 발견하여, 제안된 공격 및 완화 전략의 현실적 중요성을 보여줍니다.

PDF 보기

Made with Slashpage