Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

StealthRank: LLM Ranking Manipulation via Stealthy Prompt Optimization

Created by
  • Haebom

저자

Yiming Tang, Yi Fan, Chenxiao Yu, Tiankai Yang, Yue Zhao, Xiyang Hu

개요

대규모 언어 모델(LLM) 기반 정보 검색 시스템에 대한 새로운 공격 표면, 특히 적대적 순위 조작에 대한 취약성을 다룬 논문입니다. 본 논문에서는 텍스트의 유창성과 은밀성을 유지하면서 LLM 기반 순위 시스템을 조작하는 새로운 적대적 공격 방법인 StealthRank를 제시합니다. 기존 방법들이 감지 가능한 이상 현상을 유발하는 것과 달리, StealthRank는 에너지 기반 최적화 프레임워크와 Langevin 역학을 결합하여 StealthRank Prompts(SRPs)를 생성합니다. SRPs는 항목 또는 문서 설명에 포함된 미묘하지만 효과적으로 LLM 순위 메커니즘에 영향을 미치는 적대적 텍스트 시퀀스입니다. 여러 LLM에 걸쳐 StealthRank를 평가하여, 명시적인 조작 흔적을 남기지 않고 목표 항목의 순위를 은밀하게 높일 수 있음을 보여줍니다. 실험 결과, StealthRank는 효과성과 은밀성 측면에서 최첨단 적대적 순위 기준 모델을 꾸준히 능가하며 LLM 기반 순위 시스템의 심각한 취약성을 강조합니다. 코드는 공개적으로 제공됩니다.

시사점, 한계점

시사점: LLM 기반 순위 시스템의 취약성을 보여주는 새로운 적대적 공격 방법 StealthRank 제시. 기존 방법보다 효과적이고 은밀하게 순위 조작 가능. LLM 기반 시스템의 보안 강화 필요성 제기. 공개된 코드를 통해 추가 연구 및 분석 가능.
한계점: 현재 제시된 공격 방법에 대한 방어 기법에 대한 연구가 부족. 다양한 LLM 및 정보 검색 시스템에 대한 일반화 가능성에 대한 추가 연구 필요. 실제 환경에서의 적용 가능성 및 효과에 대한 추가 검증 필요.
👍