Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models

Created by
  • Haebom

저자

Jiawei Lian, Jianhong Pan, Lefan Wang, Yi Wang, Shaohui Mei, Lap-Pui Chau

개요

본 논문은 사전 훈련 과정에서 삽입된 유해 지식이, 지시 조정 및 선호도 학습을 통한 인간 가치 정렬에도 불구하고, 최첨단 정렬된 대규모 언어 모델(LLM)에 "암흑 패턴"으로 남아 있다는 것을 보여줍니다. 이러한 암흑 패턴은 분포 변화 시 적대적 유도 하에 재등장하며, 안전 장치를 회피합니다. 이론적으로는 현재의 정렬 방법이 지식 다양체 내에서 국소적인 "안전 영역"만 생성한다는 것을 증명하고, 반대로 사전 훈련된 지식은 높은 가능성의 적대적 경로를 통해 유해 개념과 전역적으로 연결되어 있음을 밝힙니다. 실험적으로는 분포 변화 하에서 의미 일관성 유도를 사용하여 최적화된 적대적 프롬프트를 통해 정렬 제약을 체계적으로 우회하는 방법을 통해 이러한 취약성을 검증합니다. DeepSeek-R1 및 LLaMA-3를 포함한 23개의 최첨단 정렬된 LLM 중 19개에서 100% 공격 성공률을 달성하여 이들의 보편적인 취약성을 드러냅니다.

시사점, 한계점

시사점: 현존하는 LLM 정렬 방법의 한계를 명확히 밝히고, LLM의 안전성 확보를 위한 새로운 접근법의 필요성을 강조합니다. 적대적 공격에 대한 LLM의 취약성을 실증적으로 보여줌으로써, 향후 더욱 강력한 안전 메커니즘 개발을 촉구합니다. 분포 변화 하에서의 의미 일관성 유도라는 새로운 공격 기법을 제시합니다.
한계점: 제시된 공격 기법이 모든 유형의 유해 지식 또는 모든 유형의 적대적 공격에 대해 효과적일지는 추가 연구가 필요합니다. 23개의 LLM만을 대상으로 한 제한된 실험 규모는 일반화 가능성에 대한 의문을 남깁니다. 이론적 분석의 엄밀성에 대한 추가 검토가 필요할 수 있습니다.
👍