Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Architectural Backdoors for Within-Batch Data Stealing and Model Inference Manipulation

Created by
  • Haebom

저자

Nicolas Kuchler, Ivan Petrov, Conrad Grobler, Ilia Shumailov

개요

본 논문은 기존의 신경망 백도어 공격 연구가 주로 분류 작업의 예측값 조작에 집중한 것과 달리, 배치 추론 과정을 악용하여 대규모 사용자 데이터 조작 및 절취를 가능하게 하는 새로운 유형의 백도어 공격을 제시합니다. 공격자는 모델 아키텍처를 변경하여 동일 배치 내 다른 사용자의 모델 입력 및 출력을 완전히 제어할 수 있습니다. 이러한 공격은 실행 가능하며 매우 효과적이며, 널리 사용되는 모델 아키텍처에 쉽게 주입될 수 있어 사용자 프라이버시와 시스템 무결성에 심각한 위협이 됩니다. 본 논문에서는 이러한 새로운 취약점에 대한 결정론적 완화 전략을 제안하는데, 이는 기존의 LLM 기반 백도어 탐지와 달리, 모델 그래프를 분석하여 동일 배치 내 다른 사용자 입력 간의 정보 흐름을 차단하는 정보 흐름 제어 메커니즘을 사용하여 공식적인 보장을 제공합니다. Hugging Face에 호스팅되는 모델에 대한 대규모 분석을 통해 동적 양자화 사용으로 인한 배치 항목 간의 정보 유출을 일으키는 200개 이상의 모델을 발견했습니다.

시사점, 한계점

시사점:
배치 추론 과정을 악용하는 새로운 유형의 백도어 공격의 심각성을 밝힘.
기존 백도어 공격보다 훨씬 강력하고 실질적인 위협임을 보여줌.
해당 공격에 대한 결정론적 완화 전략을 제시하고, 그 효과를 실증.
Hugging Face 등 실제 모델에서의 취약점을 대규모로 확인.
한계점:
제안된 완화 전략의 성능 및 적용 범위에 대한 추가적인 연구 필요.
다양한 모델 아키텍처와 공격 기법에 대한 포괄적인 평가가 필요.
완화 전략의 계산 비용 및 성능 오버헤드에 대한 분석 필요.
👍