LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts

Created by

Haebom

저자

Qibing Ren, Hao Li, Dongrui Liu, Zhanxu Xie, Xiaoya Lu, Yu Qiao, Lei Sha, Junchi Yan, Lizhuang Ma, Jing Shao

💡 개요

본 논문은 LLM이 사전 학습 시 사용된 유해 데이터에 노출될 때 발생하는 새로운 안전 취약점을 발견했습니다. 제안된 'ActorBreaker' 공격 방법론은 유해 콘텐츠와 의미적으로 관련된, 겉보기에는 무해한 프롬프트를 사용하여 LLM의 안전 메커니즘을 우회하고 유해한 내용을 드러나게 합니다. 실험 결과 ActorBreaker는 기존 공격 방법 대비 성능이 우수함을 입증했으며, 이러한 취약점을 해결하기 위해 유해 콘텐츠의 더 넓은 의미론적 공간을 포괄하도록 안전 훈련을 확장할 것을 제안합니다.

🔑 시사점 및 한계

•

겉보기에는 무해하지만 유해 콘텐츠와 의미적으로 연결된 프롬프트가 LLM의 안전 메커니즘을 우회할 수 있다는 새로운 안전 취약점을 발견했습니다.

•

Actor-network 이론에 기반한 ActorBreaker 공격 방법론은 기존 공격보다 더 다양하고 효과적이며 효율적으로 LLM의 안전 취약점을 탐색할 수 있습니다.

•

제안된 다중 턴 안전 데이터셋으로 LLM을 미세 조정하면 견고성이 향상되지만, 유틸리티 측면에서 일부 절충이 발생할 수 있습니다.

PDF 보기

Made with Slashpage