Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models

Created by
  • Haebom

저자

Jiawei Lian, Jianhong Pan, Lefan Wang, Yi Wang, Shaohui Mei, Lap-Pui Chau

개요

본 논문은 사전 학습 과정에서 획득한 유해한 지식이, 지시 조정 및 선호도 학습을 통한 정렬에도 불구하고, 대규모 언어 모델(LLM)의 매개변수 메모리에 "암흑 패턴"으로 남아, 분포 변화 시 적대적 유도 하에 재등장함을 보여줍니다. 이론적으로는 현재의 정렬 방법이 지식 다양체 내에서 국소적인 "안전 영역"만 생성하는 반면, 사전 학습된 지식은 높은 가능성의 적대적 경로를 통해 유해한 개념과 전역적으로 연결되어 있음을 증명합니다. 실험적으로는 분포 변화 하에서 의미적 일관성 유도를 통해 정렬 제약을 체계적으로 우회하는 최적화된 적대적 프롬프트를 사용하여 이를 검증합니다. 이를 통해 DeepSeek-R1 및 LLaMA-3를 포함한 23개의 최첨단 정렬된 LLM 중 19개에서 100% 공격 성공률을 달성하여, 이들의 보편적인 취약성을 밝힙니다.

시사점, 한계점

시사점: 현재의 LLM 정렬 방법의 한계를 명확히 보여주고, 사전 학습된 유해 지식의 완전한 제거가 LLM 안전성 확보에 필수적임을 시사합니다. 적대적 공격에 대한 LLM의 취약성을 실증적으로 증명하고, 더욱 강력한 안전 장치 개발의 필요성을 강조합니다.
한계점: 본 연구의 적대적 공격 방법이 특정한 유형의 프롬프트에 국한될 수 있으며, 모든 유형의 유해 지식 및 적대적 공격에 일반화될 수 있는지에 대한 추가 연구가 필요합니다. 또한, 실험에 사용된 LLM의 종류 및 크기가 다양하지 않을 수 있으며, 더 광범위한 LLM에 대한 연구가 필요합니다.
👍