AI 에이전트가 기업 워크플로우에 통합됨에 따라, 공유 도구 라이브러리 및 사전 훈련된 구성 요소에 대한 의존성은 상당한 공급망 취약성을 야기합니다. 개별 LLM 아키텍처 내의 행동 백도어 탐지는 이전 연구에서 입증되었지만, 여러 AI 시스템을 배포하는 조직에 심각한 영향을 미치는 교차 LLM 일반화 문제는 탐구되지 않았습니다. 본 연구는 6개의 LLM(GPT-5.1, Claude Sonnet 4.5, Grok 4.1, Llama 4 Maverick, GPT-OSS 120B, DeepSeek Chat V3.1)에 걸쳐 교차 LLM 행동 백도어 탐지에 대한 최초의 체계적인 연구를 제시합니다. 1,198개의 실행 추적 및 36개의 교차 모델 실험을 통해, 단일 모델 감지기는 훈련 분포 내에서 92.7%의 정확도를 달성하지만, 다른 LLM에서는 49.2%에 불과하여 43.4% 포인트의 일반화 격차를 보입니다. 이는 무작위 추측과 유사합니다. 분석 결과, 이러한 격차는 모델별 행동 특징, 특히 시간적 특징(변동 계수 > 0.8)에서 발생하며, 구조적 특징은 아키텍처 전반에 걸쳐 안정적으로 유지됩니다. 모델 ID를 추가 기능으로 통합한 모델 인식 탐지는 평가된 모든 모델에서 보편적으로 90.6%의 정확도를 달성합니다. 재현 가능한 연구를 위해 멀티 LLM 추적 데이터 세트 및 탐지 프레임워크를 공개합니다.