Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Cross-LLM Generalization of Behavioral Backdoor Detection in AI Agent Supply Chains

Created by
  • Haebom
Category
Empty

저자

Arun Chowdary Sanna

개요

AI 에이전트가 기업 워크플로우에 통합됨에 따라, 공유 도구 라이브러리 및 사전 훈련된 구성 요소에 대한 의존성은 상당한 공급망 취약성을 야기합니다. 개별 LLM 아키텍처 내의 행동 백도어 탐지는 이전 연구에서 입증되었지만, 여러 AI 시스템을 배포하는 조직에 심각한 영향을 미치는 교차 LLM 일반화 문제는 탐구되지 않았습니다. 본 연구는 6개의 LLM(GPT-5.1, Claude Sonnet 4.5, Grok 4.1, Llama 4 Maverick, GPT-OSS 120B, DeepSeek Chat V3.1)에 걸쳐 교차 LLM 행동 백도어 탐지에 대한 최초의 체계적인 연구를 제시합니다. 1,198개의 실행 추적 및 36개의 교차 모델 실험을 통해, 단일 모델 감지기는 훈련 분포 내에서 92.7%의 정확도를 달성하지만, 다른 LLM에서는 49.2%에 불과하여 43.4% 포인트의 일반화 격차를 보입니다. 이는 무작위 추측과 유사합니다. 분석 결과, 이러한 격차는 모델별 행동 특징, 특히 시간적 특징(변동 계수 > 0.8)에서 발생하며, 구조적 특징은 아키텍처 전반에 걸쳐 안정적으로 유지됩니다. 모델 ID를 추가 기능으로 통합한 모델 인식 탐지는 평가된 모든 모델에서 보편적으로 90.6%의 정확도를 달성합니다. 재현 가능한 연구를 위해 멀티 LLM 추적 데이터 세트 및 탐지 프레임워크를 공개합니다.

시사점, 한계점

단일 모델 백도어 탐지기의 일반화 성능이 다른 LLM에서 크게 저하됨 (43.4% 포인트 하락).
모델별 행동 특징, 특히 시간적 특징이 일반화 실패의 주요 원인.
모델 ID를 활용한 탐지 방법이 교차 모델에서 높은 정확도를 보임 (90.6%).
연구의 범위는 6개의 LLM으로 제한됨.
제공된 데이터 세트와 탐지 프레임워크는 재현 가능한 연구를 가능하게 함.
👍