본 논문은 대규모 언어 모델(LLM)의 새로운 보안 위협인 광고 삽입 공격(AEA)을 소개합니다. AEA는 제3자 서비스 배포 플랫폼을 악용하여 적대적 프롬프트를 추가하거나, 공격자 데이터로 미세 조정된 백도어가 있는 오픈소스 체크포인트를 게시하는 두 가지 저비용 벡터를 통해 은밀하게 모델 출력과 AI 에이전트에 홍보 또는 악의적인 콘텐츠를 주입합니다. 기존의 정확도를 저하시키는 공격과 달리, AEA는 정보 무결성을 훼손하여 모델이 겉으로는 정상적으로 보이지만 은밀하게 광고, 선전 또는 증오 발언을 반환하도록 만듭니다. 본 논문에서는 공격 파이프라인을 자세히 설명하고, 5개의 이해관계자 피해자 그룹을 매핑하며, 추가 모델 재훈련 없이 이러한 주입을 완화하는 초기 프롬프트 기반 자가 검사 방어를 제시합니다. 연구 결과는 LLM 보안에서 시급하고 해결되지 않은 문제점을 보여주며, AI 안전 커뮤니티의 조정된 탐지, 감사 및 정책 대응을 요구합니다.