Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Attacking LLMs and AI Agents: Advertisement Embedding Attacks Against Large Language Models

Created by
  • Haebom

저자

Qiming Guo, Jinwen Tang, Xingran Huang

개요

본 논문은 대규모 언어 모델(LLM)의 새로운 보안 위협인 광고 삽입 공격(AEA)을 소개합니다. AEA는 제3자 서비스 배포 플랫폼을 악용하여 적대적 프롬프트를 추가하거나, 공격자 데이터로 미세 조정된 백도어가 있는 오픈소스 체크포인트를 게시하는 두 가지 저비용 벡터를 통해 은밀하게 모델 출력과 AI 에이전트에 홍보 또는 악의적인 콘텐츠를 주입합니다. 기존의 정확도를 저하시키는 공격과 달리, AEA는 정보 무결성을 훼손하여 모델이 겉으로는 정상적으로 보이지만 은밀하게 광고, 선전 또는 증오 발언을 반환하도록 만듭니다. 본 논문에서는 공격 파이프라인을 자세히 설명하고, 5개의 이해관계자 피해자 그룹을 매핑하며, 추가 모델 재훈련 없이 이러한 주입을 완화하는 초기 프롬프트 기반 자가 검사 방어를 제시합니다. 연구 결과는 LLM 보안에서 시급하고 해결되지 않은 문제점을 보여주며, AI 안전 커뮤니티의 조정된 탐지, 감사 및 정책 대응을 요구합니다.

시사점, 한계점

시사점:
LLM의 새로운 보안 위협인 AEA를 규명하고 그 공격 방식을 자세히 분석함.
AEA 공격에 대한 초기 프롬프트 기반 자가 검사 방어 기법 제시.
LLM 보안의 취약점을 강조하며, AI 안전 커뮤니티의 적극적인 대응 필요성을 제기함.
한계점:
제시된 방어 기법이 모든 AEA 공격 유형에 효과적인지에 대한 추가 연구 필요.
AEA 공격의 다양한 변종과 확장 가능성에 대한 심층 분석 필요.
실제 환경에서의 AEA 공격에 대한 광범위한 실험 및 검증이 부족함.
👍