Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

No, of course I can! Refusal Mechanisms Can Be Exploited Using Harmless Fine-Tuning Data

Created by
  • Haebom
Category
Empty

저자

Joshua Kazdan, Lisa Yu, Rylan Schaeffer, Chris Cundy, Sanmi Koyejo, Krishnamurthy Dvijotham

개요

본 논문은 대규모 언어 모델(LLM)의 미세 조정 API를 통한 악의적인 사용 방지를 위한 필터링 메커니즘을 우회하는 새로운 공격 기법인 "NOICE"를 제안합니다. 기존 공격들이 모델의 초기 응답 거부를 제거하는 데 의존하는 점을 지적하고, 이를 간단한 방어 기법으로 차단할 수 있음을 보여줍니다. NOICE는 LLM의 공식적인 거부 메커니즘을 악용하여 안전상의 이유로 무해한 요청을 거부한 후에도 해당 요청을 이행하도록 함으로써 유해한 응답을 유도합니다. 이를 통해 여러 오픈소스 모델과 GPT-4o를 포함한 클로즈드소스 모델을 공격하여 성공률 57% (GPT-4o 기준)를 달성했으며, OpenAI로부터 버그 바운티를 받았습니다. 단순한 방어 기법으로 보호되는 오픈소스 모델에 대해서는 기존 최고 성능 공격 대비 평균 3.25배의 성공률 향상을 보였습니다. 이는 반복적인 거부 메커니즘의 취약성을 보여주고, 클로즈드소스 모델이 무해한 데이터로부터 직면하는 위협에 대한 이해를 넓힙니다.

시사점, 한계점

시사점:
LLM의 안전 필터링 메커니즘의 취약성을 명확히 보여줌.
기존 공격의 한계와 새로운 공격 기법(NOICE)의 효과를 제시.
클로즈드소스 모델을 포함한 다양한 모델에 대한 공격 성공률 제시.
무해한 데이터를 이용한 LLM 악용의 위험성을 강조.
LLM 안전 강화를 위한 새로운 방어 기법 연구 필요성 제시.
한계점:
NOICE 공격의 일반화 가능성 및 다양한 LLM에 대한 적용성에 대한 추가 연구 필요.
더욱 정교하고 강력한 방어 메커니즘 개발 필요.
NOICE 공격이 특정한 LLM의 거부 메커니즘에 의존하는 정도에 대한 추가 분석 필요.
실제 악의적인 목적으로의 NOICE 활용 가능성에 대한 사회적 영향 분석 필요.
👍