Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Invisible Prompts, Visible Threats: Malicious Font Injection in External Resources for Large Language Models

Created by
  • Haebom

저자

Junjie Xiong, Changjia Zhu, Shuhang Lin, Chong Zhang, Yongfeng Zhang, Yao Liu, Lingyao Li

개요

본 논문은 실시간 웹 검색 기능과 Model Context Protocol (MCP)과 같은 프로토콜이 통합된 대규모 언어 모델(LLM)의 새로운 보안 취약성을 조사합니다. 연구진은 웹페이지와 같은 외부 리소스에서 악의적인 글꼴 주입을 통해 숨겨진 적대적 프롬프트에 대한 LLM의 취약성을 체계적으로 조사합니다. 공격자는 코드-글리프 매핑을 조작하여 사용자에게 보이지 않는 기만적인 콘텐츠를 주입합니다. "악성 콘텐츠 전달"과 "민감한 데이터 유출"이라는 두 가지 중요한 공격 시나리오를 평가하여, 주입된 악성 글꼴을 사용한 간접 프롬프트가 외부 리소스를 통해 LLM 안전 메커니즘을 우회할 수 있음을 보여줍니다. 성공률은 데이터 민감도와 프롬프트 설계에 따라 다릅니다. 이 연구는 외부 콘텐츠를 처리할 때 LLM 배포에 강화된 보안 조치가 시급함을 강조합니다.

시사점, 한계점

시사점:
LLM의 실시간 웹 검색 및 MCP 통합으로 인한 새로운 보안 위협을 제시.
악성 글꼴 주입을 통한 간접적 적대적 프롬프트 공격의 효과성을 실험적으로 증명.
LLM 안전 메커니즘의 한계를 드러내고, 외부 콘텐츠 처리 시 보안 강화의 필요성을 강조.
한계점:
특정 글꼴 주입 및 MCP 활용에 국한된 공격 시나리오 분석. 다양한 공격 벡터에 대한 추가 연구 필요.
성공률이 데이터 민감도와 프롬프트 설계에 따라 달라지는 점을 고려, 더욱 포괄적인 공격 성공률 예측 모델 개발 필요.
실제 환경에서의 공격 성공률 및 영향 평가에 대한 추가 연구 필요.
👍