Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Noise Injection Systemically Degrades Large Language Model Safety Guardrails

Created by
  • Haebom

저자

Prithviraj Singh Shahani, Matthias Scheutz

개요

본 논문은 대규모 언어 모델(LLM)의 안전성 미세조정(safety fine-tuning)의 강건성에 대한 연구를 다룹니다. 모델 활성화에 가우시안 노이즈를 주입하여 안전성 미세조정의 강건성을 조사한 결과, 가우시안 노이즈가 유해 출력 비율을 최대 27%까지 증가시키며(p < 0.001), 더 깊은 안전성 미세조정이 추가적인 보호 효과를 제공하지 않고, 사고 과정 추론(chain-of-thought reasoning)은 대부분 온전하게 유지됨을 보였습니다. 이는 현재의 안전 정렬 기술의 취약성을 드러내고, 더 강건한 AI 안전 시스템 개발을 위한 추론 기반 및 강화 학습 접근 방식의 잠재력을 강조합니다.

시사점, 한계점

시사점:
현재 널리 사용되는 안전 미세조정 기법이 적대적 프롬프트 없이도 실패할 수 있음을 보여줌으로써, 안전 중요 애플리케이션에서 LLM의 실제 배포에 중요한 영향을 미칩니다.
추론 기반 및 강화 학습 접근 방식이 더 강건한 AI 안전 시스템 개발에 유망한 방향임을 시사합니다.
가우시안 노이즈와 같은 간단한 섭동에도 안전성 미세조정의 효과가 크게 감소할 수 있음을 보여줍니다.
한계점:
가우시안 노이즈라는 특정 유형의 섭동에만 초점을 맞추었으므로, 다른 유형의 섭동에 대한 안전성 미세조정의 강건성은 추가 연구가 필요합니다.
다양한 모델에 대한 실험을 수행했지만, 모든 LLM에 일반화될 수 있는지는 추가적인 검증이 필요합니다.
사고 과정 추론이 온전하게 유지된다는 사실이 안전성을 보장하는 것은 아닙니다. 유해한 결과를 생성하는 추론 과정 자체에 대한 분석이 필요합니다.
👍