Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Tower of Babel Revisited: Multilingual Jailbreak Prompts on Closed-Source Large Language Models

Created by
  • Haebom
Category
Empty

저자

Linghan Huang, Haolin Jin, Zhaoge Bi, Pengyue Yang, Peizhou Zhao, Taozhao Chen, Xiongfei Wu, Lei Ma, Huaming Chen

개요

본 논문은 다양한 분야에서 널리 사용되지만 적대적 프롬프트 주입에 취약한 대규모 언어 모델(LLM)의 문제점을 다룹니다. 기존 연구가 주로 오픈소스 모델에 집중한 것과 달리, 본 연구는 다국어 공격 시나리오 하에서 폐쇄형 LLM을 조사합니다. GPT-4o, DeepSeek-R1, Gemini-1.5-Pro, Qwen-Max를 포함한 최첨단 독점 솔루션을 체계적으로 평가하기 위해 다양한 공격 기법을 활용하는 최초의 통합 적대적 프레임워크를 제시합니다. 영어와 중국어로 6가지 보안 콘텐츠 범주에 걸쳐 32가지 유형의 탈옥 공격을 생성하여 38,400개의 응답을 생성하고, 공격 성공률(ASR)을 정량적 지표로 사용하여 프롬프트 설계, 모델 아키텍처, 언어 환경 세 가지 측면에서 성능을 평가합니다. 그 결과 Qwen-Max가 가장 취약하고 GPT-4o가 가장 강력한 방어력을 보이는 것으로 나타났습니다. 특히 중국어 프롬프트가 영어 프롬프트보다 ASR이 지속적으로 높았으며, 새로운 Two-Sides 공격 기법이 모든 모델에서 가장 효과적인 것으로 나타났습니다. 이 연구는 LLM에서 언어 인식 정렬 및 강력한 교차 언어 방어의 필요성을 강조하며, 보다 강력하고 포괄적인 AI 시스템을 향한 연구자, 개발자 및 정책 입안자에게 영감을 줄 것으로 기대됩니다.

시사점, 한계점

시사점:
폐쇄형 LLM의 다국어 적대적 공격 취약성을 최초로 체계적으로 평가한 연구.
다양한 LLM 모델 간의 상대적 취약성을 정량적으로 비교 분석. (Qwen-Max 가장 취약, GPT-4o 가장 강력)
언어(중국어 > 영어) 및 공격 기법(Two-Sides 공격 기법 가장 효과적)에 따른 취약성 차이 제시.
LLM의 언어 인식 정렬 및 강력한 교차 언어 방어의 중요성 강조.
한계점:
평가에 사용된 LLM 모델이 제한적일 수 있음.
다른 유형의 적대적 공격에 대한 일반화 가능성에 대한 추가 연구 필요.
Two-Sides 공격 기법의 구체적인 메커니즘에 대한 자세한 설명 부족.
실제 세계 적용 시나리오에서의 일반화 가능성에 대한 추가 검증 필요.
👍