Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

No, of Course I Can! Deeper Fine-Tuning Attacks That Bypass Token-Level Safety Mechanisms

Created by
  • Haebom

저자

Joshua Kazdan, Abhay Puri, Rylan Schaeffer, Lisa Yu, Chris Cundy, Jason Stanley, Sanmi Koyejo, Krishnamurthy Dvijotham

개요

본 논문은 OpenAI와 Anthropic과 같은 주요 대규모 언어 모델(LM) 제공업체들이 특정 용도에 맞춰 최첨단 LM을 미세 조정할 수 있도록 허용하는 상황에서, 악용을 방지하기 위해 해당 제공업체들이 과도하게 유해한 데이터에 대한 미세 조정을 차단하는 필터를 적용하는 것에 대한 연구입니다. 기존의 안전 정렬이 "얕다"는 것을 보여주는 과거 연구와 마찬가지로, 기존의 미세 조정 공격 또한 "얕다"는 것을 보여줍니다. 즉, 공격은 모델 응답의 처음 몇 개 토큰만을 타겟으로 하며, 따라서 정렬된 모델로 처음 몇 개의 응답 토큰을 생성함으로써 차단될 수 있다는 것입니다. 본 논문에서는 먼저 유해한 요청을 거부한 다음 응답하는 새로운 미세 조정 공격을 제시하여 공격을 더욱 심화시키는 방법을 개념적으로 설명합니다. 이 "거부 후 준수" 전략은 얕은 방어를 우회하고 출력 필터를 회피하는 유해한 응답을 생성합니다. 마지막으로 방어 기능이 장착된 오픈소스 모델과 프로덕션 모델 모두에 대한 새로운 미세 조정 공격의 효능을 보여줍니다. GPT-4o와 Claude Haiku에 대해 각각 57%와 72%의 공격 성공률을 달성하였으며, OpenAI로부터 2000달러의 버그 바운티를 받았고 Anthropic에 의해 취약성으로 인정받았습니다.

시사점, 한계점

시사점: 모델이 처음에 유해한 요청을 거부하기 때문에 안전하다는 개념을 훼손하고, 프로덕션 미세 조정 API에 직면하는 공격의 범위에 대한 인식을 넓힙니다. 기존의 얕은 방어 메커니즘의 한계를 드러내고, 더욱 정교한 공격 기법의 필요성을 강조합니다. "거부 후 준수" 전략과 같은 새로운 공격 방식의 위험성을 제시합니다.
한계점: 제시된 공격 기법의 일반화 가능성 및 다른 모델에 대한 적용 가능성에 대한 추가 연구가 필요합니다. 현재 공격 성공률은 특정 모델에 국한될 수 있으며, 모델 업데이트나 방어 메커니즘 개선에 따라 성공률이 달라질 수 있습니다. 모든 유형의 유해한 요청과 응답에 대해 효과적이지 않을 수 있습니다.
👍