Sign In

Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks

Created by
  • Haebom
Category
Empty

저자

Samuele Poppi, Zheng-Xin Yong, Yifei He, Bobbie Chern, Han Zhao, Aobo Yang, Jianfeng Chi

개요

본 논문은 대규모 언어 모델(LLM)의 안전성에 대한 우려를 다룬다. 특히, 적대적으로 선택된 몇몇 명령어-추종 예시로 미세 조정하는 것만으로도 LLM의 안전성 정렬이 쉽게 제거될 수 있다는 최근 연구 결과를 바탕으로, 다국어 LLM에서의 미세 조정 공격을 더 자세히 이해하고자 한다. 연구 결과, 한 언어에서 적대적으로 선택된 몇몇 명령어-추종 예시를 사용하여 미세 조정하는 것만으로도 다국어 LLM이 손상될 수 있으며(예: 다른 언어의 유해한 프롬프트 거부 실패), 이는 미세 조정 공격의 교차 언어 일반화를 의미한다는 것을 발견했다. 이러한 발견에 따라, 안전 관련 정보는 언어와 무관하다는 가설을 세우고, 모델 매개변수 공간에서 안전 관련 정보를 식별하는 새로운 방법인 Safety Information Localization (SIL)을 제안한다. SIL을 통해 가설을 검증하고, 미세 조정 공격에서 가중치 매개변수의 20%만 변경해도 모든 언어에서 안전성 정렬이 깨질 수 있음을 발견했다. 또한, 안전 관련 매개변수를 고정해도 미세 조정 공격을 방지할 수 없는 이유에 대한 대안 경로 가설에 대한 증거를 제시하고, 새로운 언어에 적응된 LLM도 여전히 공격 벡터로 탈옥시킬 수 있음을 보여준다.

시사점, 한계점

시사점: 다국어 LLM에서 미세 조정 공격의 교차 언어 일반화 현상을 밝히고, 안전 관련 정보가 언어와 무관할 가능성을 제시했다. Safety Information Localization (SIL)이라는 새로운 방법을 통해 모델의 안전성 취약점을 효과적으로 식별할 수 있음을 보였다. 안전성 향상을 위한 새로운 방향을 제시함으로써 LLM의 안전성 연구에 기여했다.
한계점: SIL의 효율성과 일반화 성능에 대한 추가적인 연구가 필요하다. 현재 연구는 특정 LLM과 공격 방식에 국한되어 있으므로, 다양한 LLM과 공격 방식에 대한 일반화 가능성을 검증해야 한다. 안전 관련 매개변수의 고정이 효과적이지 않은 이유에 대한 더 심층적인 분석이 필요하다. 제안된 방법의 실제 적용 및 안전성 향상에 대한 구체적인 전략 제시가 부족하다.
👍