[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multilingual Collaborative Defense for Large Language Models

Created by
  • Haebom

저자

Hongliang Li, Jinan Xu, Gengping Cui, Changhao Guan, Fengran Mo, Kaiyu Huang

개요

본 논문은 대규모 언어 모델(LLM)의 취약점 중 하나인, 악의적인 질의를 희귀하거나 과소표현된 언어로 번역하여 LLM의 안전장치를 우회하는 "탈옥(jailbreaking)" 기법에 대한 연구입니다. 기존 연구의 부족을 지적하며, 다국어 환경에서의 LLM 안전 강화의 필요성을 강조합니다. 연구진은 다양한 언어에서의 공격 특징 간 상관관계를 조사하고, 다국어 협력 방어(MCD)라는 새로운 학습 방법을 제안합니다. MCD는 연속적인 소프트 안전 프롬프트를 자동으로 최적화하여 다국어 LLM 안전을 강화합니다. 기존 방법보다 다국어 탈옥 시도 방지에 효과적이며, 언어 전이 성능이 뛰어나고, 오거부율을 최소화하며, LLM 훈련 말뭉치의 불균형으로 인한 언어 안전 불일치를 완화합니다. MaliciousInstruct 및 AdvBench와 같은 벤치마크의 다국어 버전을 수동으로 구성하고, 과소표현된 언어(제로샷)에 대한 평가를 통해 MCD의 성능을 검증합니다. 소스 코드는 공개되어 있습니다.

시사점, 한계점

시사점:
다국어 환경에서 LLM의 안전성을 향상시키는 새로운 방법(MCD) 제시
다양한 언어에 대한 일반화 성능이 우수하며 오거부율을 최소화
LLM 훈련 말뭉치 불균형으로 인한 언어 안전 불일치 문제 완화
과소표현된 언어에 대한 강력한 언어 전이 성능 확인
제시된 방법의 소스 코드 공개를 통한 재현성 확보
한계점:
수동으로 다국어 벤치마크를 구축한 점 - 자동화된 벤치마크 구축 방안의 연구 필요
MCD의 성능 평가에 사용된 데이터셋의 범위 및 다양성에 대한 추가적인 연구 필요
실제 세계의 다양한 공격 유형에 대한 MCD의 일반화 성능에 대한 추가적인 검증 필요
👍